考试时间:2023.12.25
授课老师:panpeng
考试内容:
5道简答题全部在他给的复习题里(我总结了一下放在上边了)
1、数据预处理步骤及每步要处理的问题;
2、画出数据集成框架,写出其及定义和原因;
3、数据仓库的特征和画出体系结构;
4、维度归约有哪两类技术?有什么区别?
5、离群点检测中最近邻距离的定义
大题:
1、给了两个模型分别计算阳性检测的精确率、召回率、准确率、错误率并说明哪个模型更好
2、画箱线图
3、逻辑模型(星型模型或雪花模型;MOLAP原理;粒度划分;OLAP操作)
4、、FP-tree
图类似这个但比这个数据多一点:
(1)画出FP-tree生成过程
(2)根据某个项的条件模式基挖掘出频繁序列
(3)根据频繁序列写出关联规则
(4)关联规则主观度量和客观度量方法
5、Apriori-all
图类似这样但比这个数据多一点:
(1)画出转换后的序列数据库
(2)写出算法中有几种连接操作
(3)Apriori、Apriori-all、GSP连接操作的区别
6、DB-SCAN
图类似这样:只不过e=3,min=3
(1)写出聚类过程
(2)写出所有核心点
(3)写出两组密度可达和密度相连的点
7、OPTICS
根据可达距离折线图写出聚类
8、Birch
数据类似这样:
给出了插入x1、x2、x3、x4之后的CF树类似这样:
写出插入x5的过程和画出插入后的CF树
感想:题量非常非常大!!!!!要求对每个算法都非常掌握,看到题不用思考就能写过程的那种掌握,两个小时基本写不完!