中国科学院研究生院 课程编号:71258-Z-2
试 题 专 用 纸 课程名称:现代信息检索
任课教师:王斌
———————————————————————————————————————————————
姓名 学号 成绩
一、 判断题(正确打√,错误打X。每题2分,共30分)
1、 建立倒排索引时,只能以文件作为索引单位。 ( )0
2、 词项集合和词条集合有时可以完全不同,甚至交集为空集。( )1
3、 轮排索引和k-gram索引都可以支持通配查询的处理。 ( ) 1
4、 倒排索引的构建与所处的硬件环境息息相关。( )1
5、 γ的编码序列唯一,但解码序列不唯一。( )0
6、 向量空间模型的计算当中,采用余弦相似度和欧氏距离得到的相似度是一致的,即两个向量的余弦相似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。( )0
7、 信息检索系统中只存在一种索引结构。( )0
8、 隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。( )0
9、 在BM25检索模型中,考虑了文档长度对检索带来的影响。( )1
10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设 。( )0
11、特征选择函数MI(Expected MutualInformation)考虑了词项不存在对分类带来的影响。( )1
12、SVM分类的速度与支持向量的个数无关。( )0
13、K-均值聚类算法的结果依赖于初始种子质心的选择。( )1
14、GAAC层次聚类算法的结果具有确定性。( )1
15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。( )0
二、 选择题(单项或多项选择。每题2分,共16分)
1、关于倒排索引的压缩,以下叙述正确的是( 12 )。
A)压缩能提高空间的利用率 B)压缩能提高硬盘到内存的传输速度
C)词典压缩作用不大 D)可变字节编码压缩是一种有损压缩方法
2.关于向量空间模型,以下叙述正确的是( 12 4 )。
A)查询和文档均看成向量 B)权重计算的方式很多
C)查询和文档表示成不同空间的向量 D)相似度计算的方式很多
共5页 第1页
3.关于隐式相关反馈,以下叙述错误的是( 2) 。
A)该反馈中实际上有用户参与 B)该反馈后的检索效果一定会提高
C)该反馈是一种局部方法 D)该反馈效果一般会低于用户相关反馈
4.关于伪相关反馈,以下叙述错误的是(12 )。
A)该反馈中实际上有用户参与 B)该反馈后的检索效果一定会提高
C)该反馈是一种局部方法 D)该反馈效果一般会低于用户相关反馈
5. 关于kNN分类器,以下叙述错误的是( 2 )。
A)该分类器几乎不需要训练 B)该分类器分类速度很快
C)该分类器是非线性分类器 D)该分类器通常分类效果不错
6.关于Rocchio分类器,以下叙述错误的是( 12)。
A)该分类器不需要训练 B)该分类器通常分类效果不错
C)该分类器训练速度很快 D)该分类器分类速度很快
7.关于K-均值聚类算法,以下叙述错误的是( 24 )。
A)该聚类算法要事先给定聚类数目 B)该聚类算法是确定性算法
C)该聚类算法的时间复杂度是线性的 D)该聚类算法能得到全局最优结果
8.关于HAC聚类算法,以下叙述错误的是( 134 ) 。
A)HAC必须要指定聚类数目 B)HAC算法都是确定性算法
C)HAC要求文档要以向量来表示 D)HAC的相似度只能采用向量内积计算
三、 计算题(每题6分,共30分)
1、 面对两个正确答案集合分别是Rq1={d1,d2,d3,d4,d5}及 Rq2={d6,d7,d8,d9,d10 }的查询q1、q2,某个检索系统A返回的检索结果如表1所示。试计算出该系统对每个查询的P、R、F、P@10、AP等指标,并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中(小数点后保留2位即可)。其中AP计算采用未插值方法。
表1 检索结果表
系统-查询 |
返回结果数 |
返回结果中正确答案所在位置 |
A-q1 |
20 |
2-d2; 4-d4;5-d1;10-d5 |
A-q2 |
20 |
1-d6,4-d7;10-d8;12-d9 |
共5页 第2页
表2 结果汇总表
系统&查询 | P | R | F | P@10 | AP | MAP |
A-q1 | 0.2 | 0.8 | 0.32 | 0.4 | 0.4 | 0.413 |
A-q2 | 0.2 | 0.8 | 0.32 | 0.3 | 0.427 |
2、 对于下列分别采用VB编码和γ编码的间距编码结果(第一个是原始值,后面为间隔值),请还原原始的间距序列及倒排记录表。
(1) VB编码:00010110 10111000 10010101 00101101 00001101 10110101
(2) γ编码: 1100111111100101111111111010001111110110
(1)0001011010111000 10010101 00101101 00001101 10110101
2872 21 738997
2872 2893 741890
(2)11001 1111110010111 111111101000111 1110110
101 5 1010111 87 11000111 199 1110 14
5 92 291 295
3、 对于如下坐标轴上的点,请分别采用单连接、全连接和质心法HAC对这些点进行聚类,并输出聚类的树状图。
0 1 2 3 4 5 6 7
单连接、全连接和质心法HAC
最相似成员
最不相似成员
平均相似度
4、 假设五个网页A、B、C、D、E构成如下的链接关系,试采用如下公式(u指当前页面,Bu是所有链接到u的页面集合,Nv是页面v的总链出链接数,R(u)和R(v)分别是u和v的PageRank值,为计算方便,假定c=1)计算每个网页的归一化PageRank值,即五个网页的PageRank总和为1。
A B6/41 C 12/41 D9/41 E8/41
5、 假设有图中三角形和圆形两类数据,某个分类器在某个测试数据集上得到的分类结果如下图所示(分类器将左图中的数据判定为三角形类,将右图中的数据判定为圆形类),分别计算该分类器在三角形和圆形这两个个类别上的正确率、召回率和F值,并计算该分类器在所有类别上的宏平均F值、微平均F值和精确率(accuracy)。
三角形类 圆形类
四、 应用题(每题8分,共24分)
1、 基于网页的新闻内容抽取是指从新闻网页中提取新闻标题和正文的过程(如下图所示),试应用本课程学到的文本聚类技术实现上述过程,给出你的思路的详细步骤(内容抽取到文本聚类问题的映射、文本表示方法、相似度计算方法、聚类算法等)和过程(提示:尽量详细)。
2、 中文分词是将输入的中文句子切分成一个个词语的过程,如“我是中国人è 我 是 中国 人”,中文分词可以采用无事先定义词典的方法。试应用本课程学到的文本分类技术实现无词典的分词过程,给出你的思路的详细步骤(内容抽取到文本分类问题的映射、文本表示方法、特征选择及分类算法等)和过程(提示:尽量详细)。
3、 从发表内容和关注关系(结构)两个角度出发,设计一个算法来计算微博用户之间的相似度(提示:尽量详细)。