2021山东大学web数据管理试卷回忆

根据老师划的重点硬背就行_(:_」∠)_可以参考搜索技术&信息检索考试内容
这里贴一个20年试卷

第一部分 填空 一空一分 30分
(能记得多少是多少了,不按照顺序)
1.DFS优于BFS的原因_____
2.爬虫的礼貌性是_______
3.按照页面承载的内容不同分为____型页面和____型页面
4.构建词项词典的步骤:文档解析,____ ,____ ,____,停用词
5.停用词的消除方法:____和 ____
6.分词算法有基于NLP理解的分词方法,基于 ____的分词方法,基于 ____的分词方法
7.统计语言模型是 ____, 应用有 ____
8.基于内容的信息检索模型有 ____模型, ____模型和概率模型
9. BM25公式主要由三个部分组成: ____, ____, ____
10.CBIR的关键技术: ____, ____
11.颜色矩是在颜色直方图的基础上计算出 ____, ____, ____,用这些统计量替代颜色的分布来表示颜色特征
12.Tamura纹理特征中 ____, ____, ____对于图像检索尤为重要
13.LBP的全称是 _____,一种有效的 _____描述算子,记录像素点与 _______。

第二部分 名词解释 一题6分 共30分
1.正则表达式
2.WEB数据抽取
3.倒排索引
4.TF/IDF
5.BOF

第三部分 简答题 一题10分 共40分
1.简述反爬虫策略和爬虫的应对
2.HMM,基于HMM的中文分词
3.网站排序算法和原理
4.PLSA,PLSA和LSA的异同

  • 3
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值