手里的资料择机以博客形式上传。2022年的这个时候,19级的xdm可以点头像看我的其他的博客有用的东西
考前一晚,空间有近10个说说控诉web数据管理内容量爆炸复习不完。
说明:
人脑带题,热乎回忆(doge
回忆的过程查看复习资料看到正确答案真的好痛苦
50分钟出考场,想了想,等考完试再发布吧
没考完呢,直接网上发布这问题很大
一 填空 共30分
有想起再补充
爬虫的礼貌性指的是________
词项词典建立的步骤是文档解析、_________ 、_________ ,_______ 和去除停用词,去除停用词的方法有 ________ 、 ________
基于内容的检索模型有________、________、概率模型
网页根据内容不同分为________型页面、________型页面
Tamura纹理中,________和________和_________对于图像检索尤为重要。
统计语言模型是________________,应用有__________等
(查了一下这个答案是:统计语言模型是序列中单词的概率分布。。。。。。。。。。淦)
爬虫的DFS比BFS好是因为__________
BM25公式的三个部分是________、________ 、________
BM25公式中常量k的作用是______________
颜色矩用________、________、________这些统计量替代颜色的分布来表示颜色特征。(记不清了,感觉是填 均值、方差、斜度)
LBP的全称是 ________ ,是 ________ 描述方法,结合了像素关系和________________
CBIR技术的核心是_______和________
数了一下回忆了28个空,可以说仁至义尽了(doge)
二 名词解释 6分*5
1.正则表达式
2.web数据抽取
3.倒排索引
4.TF/IDF
5.BOF
三 简答 10分*4
1.网页防爬虫策略有哪些,爬虫怎么应对
2.什么是HMM模型,简述基于HMM模型的中文分词方法
3.简述常用的网页排序算法及其原理
4.什么是pLSA,简述pLSA与LSA的异同点