山东大学 计算机科学与技术学院
提示:有1~2道题忘了,但影响不大
第一部分 信息检索
- 画倒排表
- 根据倒排表写 AND OR NOT的结果
- 写x OR y的伪代码 最坏情况下复杂度
- IDF的定义 IDF的公式 IDF为什么是有限的 IDF的最大值最小值
- IDF与停用词的关系
- 给出一个查询的前20个结果 共10000个文档 8个标准答案 求AP
- 给出前20个结果 共10000个文档 8个标准答案 求AP的可能范围(最大值最小值)
- BM25中参数k1和b的作用
- 描述PageRank算法中的PowerIteration
第二部分 数据挖掘
- 什么是欠拟合 改进方法
- 二分类,把归为正类的阈值T提高,P和R怎么变化
- 描述kmeans的过程;问kmeans的两个终止条件是否等价:a)没有点被分配到新的簇 b)簇中心不再变化
- 解释层次聚类的优缺点
- 解释DBSCAN中的Eps和MinPts,并给出核心点的定义
- 图像分类任务中CNN相比于前馈神经网络的优势
- RNN相比于前馈神经网络的优势