山东大学软件学院2021web数据管理考试回忆

最新推荐文章于 2024-06-14 14:49:14 发布

单身狗尊享

最新推荐文章于 2024-06-14 14:49:14 发布

阅读量1.9k

点赞数 15

分类专栏：复习资料等文章标签： web 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44220394/article/details/118181354

版权

复习资料等专栏收录该内容

13 篇文章 2 订阅

订阅专栏

手里的资料择机以博客形式上传。2022年的这个时候，19级的xdm可以点头像看我的其他的博客有用的东西

考前一晚，空间有近10个说说控诉web数据管理内容量爆炸复习不完。

说明：
人脑带题，热乎回忆(doge
回忆的过程查看复习资料看到正确答案真的好痛苦

50分钟出考场，想了想，等考完试再发布吧
没考完呢，直接网上发布这问题很大

一填空共30分

有想起再补充

爬虫的礼貌性指的是________

词项词典建立的步骤是文档解析、_________ 、_________ ，_______ 和去除停用词，去除停用词的方法有 ________ 、 ________

基于内容的检索模型有________、________、概率模型

网页根据内容不同分为________型页面、________型页面

Tamura纹理中,________和________和_________对于图像检索尤为重要。

统计语言模型是________________，应用有__________等
（查了一下这个答案是：统计语言模型是序列中单词的概率分布。。。。。。。。。。淦）

爬虫的DFS比BFS好是因为__________

BM25公式的三个部分是________、________ 、________

BM25公式中常量k的作用是______________

颜色矩用________、________、________这些统计量替代颜色的分布来表示颜色特征。（记不清了，感觉是填均值、方差、斜度）

LBP的全称是 ________ ，是 ________ 描述方法，结合了像素关系和________________

CBIR技术的核心是_______和________

数了一下回忆了28个空，可以说仁至义尽了（doge）

二名词解释 6分*5

1.正则表达式
2.web数据抽取
3.倒排索引
4.TF/IDF
5.BOF
在这里插入图片描述

三简答 10分*4

1.网页防爬虫策略有哪些，爬虫怎么应对
2.什么是HMM模型，简述基于HMM模型的中文分词方法
3.简述常用的网页排序算法及其原理
4.什么是pLSA，简述pLSA与LSA的异同点

在这里插入图片描述

单身狗尊享

关注

15
点赞
踩
66

收藏

觉得还不错? 一键收藏
7
评论
山东大学软件学院2021web数据管理考试回忆

手里的资料择机以博客形式上传。2022年的这个时候，19级的xdm可以点头像看我的其他的博客有用的东西考前一晚，空间有近10个说说控诉web数据管理内容量爆炸复习不完。说明：人脑带题，热乎回忆(doge回忆的过程查看复习资料看到正确答案真的好痛苦50分钟出考场，想了想，等考完试再发布吧没考完呢，直接网上发布这问题很大一填空共30分有想起再补充爬虫的礼貌性指的是________词项词典建立的步骤是文档解析、_________ 、_________ ，_______.
复制链接

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。