山东大学软件学院2021web数据管理考试回忆

手里的资料择机以博客形式上传。2022年的这个时候,19级的xdm可以点头像看我的其他的博客有用的东西

考前一晚,空间有近10个说说控诉web数据管理内容量爆炸复习不完。在这里插入图片描述

说明:
人脑带题,热乎回忆(doge
回忆的过程查看复习资料看到正确答案真的好痛苦
在这里插入图片描述
50分钟出考场,想了想,等考完试再发布吧
没考完呢,直接网上发布这问题很大
在这里插入图片描述

一 填空 共30分

有想起再补充

爬虫的礼貌性指的是________

词项词典建立的步骤是文档解析、_________ 、_________ ,_______ 和去除停用词,去除停用词的方法有 ________ 、 ________

基于内容的检索模型有________、________、概率模型

网页根据内容不同分为________型页面、________型页面

Tamura纹理中,________和________和_________对于图像检索尤为重要。

统计语言模型是________________,应用有__________等
(查了一下这个答案是:统计语言模型是序列中单词的概率分布。。。。。。。。。。淦)

爬虫的DFS比BFS好是因为__________

BM25公式的三个部分是________、________ 、________

BM25公式中常量k的作用是______________

颜色矩用________、________、________这些统计量替代颜色的分布来表示颜色特征。(记不清了,感觉是填 均值、方差、斜度)

LBP的全称是 ________ ,是 ________ 描述方法,结合了像素关系和________________

CBIR技术的核心是_______和________

数了一下回忆了28个空,可以说仁至义尽了(doge)
在这里插入图片描述

二 名词解释 6分*5

1.正则表达式
2.web数据抽取
3.倒排索引
4.TF/IDF
5.BOF
在这里插入图片描述

三 简答 10分*4

1.网页防爬虫策略有哪些,爬虫怎么应对
2.什么是HMM模型,简述基于HMM模型的中文分词方法
3.简述常用的网页排序算法及其原理
4.什么是pLSA,简述pLSA与LSA的异同点

在这里插入图片描述

  • 9
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值