根据老师划的重点硬背就行_(:_」∠)_可以参考搜索技术&信息检索考试内容
这里贴一个20年试卷
第一部分 填空 一空一分 30分
(能记得多少是多少了,不按照顺序)
1.DFS优于BFS的原因_____
2.爬虫的礼貌性是_______
3.按照页面承载的内容不同分为____型页面和____型页面
4.构建词项词典的步骤:文档解析,____ ,____ ,____,停用词
5.停用词的消除方法:____和 ____
6.分词算法有基于NLP理解的分词方法,基于 ____的分词方法,基于 ____的分词方法
7.统计语言模型是 ____, 应用有 ____
8.基于内容的信息检索模型有 ____模型, ____模型和概率模型
9. BM25公式主要由三个部分组成: ____, ____, ____
10.CBIR的关键技术: ____, ____
11.颜色矩是在颜色直方图的基础上计算出 ____, ____, ____,用这些统计量替代颜色的分布来表示颜色特征
12.Tamura纹理特征中 ____, ____, ____对于图像检索尤为重要
13.LBP的全称是 _____,一种有效的 _____描述算子,记录像素点与 _______。
第二部分 名词解释 一题6分 共30分
1.正则表达式
2.WEB数据抽取
3.倒排索引
4.TF/IDF
5.BOF
第三部分 简答题 一题10分 共40分
1.简述反爬虫策略和爬虫的应对
2.HMM,基于HMM的中文分词
3.网站排序算法和原理
4.PLSA,PLSA和LSA的异同