第1次作业
一. 单选题(共3题,3分)
1. (单选题, 1分)用于对随时间变化的数据对象的变化规律和趋势进行建模描述的数据挖掘研究称为( )。
A. 数据预测
B. 孤立点分析
C. 数据分类
D. 演化分析
我的答案: D :演化分析; 正确答案: D :演化分析;
1分
2. (单选题, 1分)如果在当前数据基础上,想看更为明细的数据,则应该执行的操作是( )
A. 切块
B. 旋转
C. 下钻
D. 上卷
我的答案: C :下钻; 正确答案: C :下钻;
1分
3. (单选题, 1分)以下关于OLTP和OLAP的区别,错误的是( )
A. OLTP关注当前和本地的数据,而OLAP关注集成数据
B. OLTP处理的数据是当前的详细数据,而OLAP处理历史数据
C. OLTP的访问模式包括对数据的更新、查询,而OLAP进行只读操作
D. OLTP面向市场,而OLAP面向客户
我的答案: D :OLTP面向市场,而OLAP面向客户; 正确答案: D :OLTP面向市场,而OLAP面向客户;
1分
二. 多选题(共2题,4分)
4. (多选题, 2分)数据的质量包括( )
A. 精确性
B. 完整性
C. 可信性
D. 一致性
我的答案: ABCD :精确性; 完整性; 可信性; 一致性; 正确答案: ABCD :精确性; 完整性; 可信性; 一致性;
2分
5. (多选题, 2分)关于OLTP和OLAP的区别,主要体现在哪些方面( )
A. 访问模式
B. 处理对象
C. 软件操作
D. 数据内容
我的答案: ABD :访问模式; 处理对象; 数据内容; 正确答案: ABD :访问模式; 处理对象; 数据内容;
2分
三. 填空题(共3题,3分)
6. (填空题, 1分)KDD又称为数据库中的知识发现,它的核心步骤是____________。
我的答案:
1分
(1) 数据挖掘
正确答案:
(1) 数据挖掘
7. (填空题, 1分)已知收入的最小值是2000,最大值是14000,那么对于4000,采用最小-最大规范化后得到的数值是_______________(保留3位小数,采取四舍五入)
我的答案:
1分
(1) 0.17
正确答案:
(1) 0.17
8. (填空题, 1分)数据挖掘任务中,对差异和极端特例的描述,揭示事物偏离常规的异常现象的这类知识,称为_____________。
我的答案:
1分
(1) 偏差知识
正确答案:
(1) 偏差型知识;偏差知识
———————————————
第2次作业
一. 单选题(共4题,4分)
1. (单选题, 1分)如果在当前数据基础上,想看汇总数据,则应该执行的操作是( )
A. 切块
B. 上卷
C. 下钻
D. 旋转
我的答案: B :上卷; 正确答案: B :上卷;
1分
2. (单选题, 1分)处理缺失值时,以下哪个不是自动填充的方式( )
A. 使用随机值
B. 使用属性的平均值
C. 使用最可能的值
D. 使用全局变量
我的答案: A :使用随机值; 正确答案: A :使用随机值;
1分
3. (单选题, 1分)下列哪项不属于数据仓库的特点( )
A. 集成的
B. 面型主题的
C. 不变的
D. 非易失的
我的答案: C :不变的; 正确答案: C :不变的;
1分
4. (单选题, 1分)数据挖掘中,如果希望以相对小的数据实现和原数据相同或接近的分析结果,则应该进行的预处理是( )
A. 数据集成
B. 数据规约
C. 数据清理
D. 数据分层
我的答案: B :数据规约; 正确答案: B :数据规约;
1分
二. 多选题(共2题,4分)
5. (多选题, 2分)关于数据挖掘,以下说法正确的是( )
A. 数据挖掘是知识库中知识发现的核心步骤
B. 数据挖掘中,数据质量和挖掘算法都重要
C. 数据挖掘中,数据预处理是工作量最大的环节
D. 数据挖掘中,更重要的是挖掘算法,优秀的数据挖掘算法可以弥补数据质量的缺陷,得到高质量的挖掘结果
我的答案: ABC :数据挖掘是知识库中知识发现的核心步骤; 数据挖掘中,数据质量和挖掘算法都重要; 数据挖掘中,数据预处理是工作量最大的环节; 正确答案: ABC :数据挖掘是知识库中知识发现的核心步骤; 数据挖掘中,数据质量和挖掘算法都重要; 数据挖掘中,数据预处理是工作量最大的环节;
2分
6. (多选题, 2分)数据规约包括( )
A. 维规约
B. 数据压缩
C. 数据立方体聚集
D. 数值规约
我的答案: ABCD :维规约; 数据压缩; 数据立方体聚集; 数值规约; 正确答案: ABCD :维规约; 数据压缩; 数据立方体聚集; 数值规约;
2分
三. 填空题(共2题,2分)
7. (填空题, 1分)从一组特征集合中,选出一部分作为最优特征的过程叫做_______________。
我的答案:
1分
(1) 特征选择
正确答案:
(1) 特征选择;特征选择和提取;特征选择或提取;特征选择与提取;特征提取
8. (填空题, 1分)原始数据是2247,采用小数定标后得到的数值是_______________(保留3位小数,采取四舍五入)
我的答案:
1分
(1) 0.23
正确答案:
(1) 0.23
———————————————
第3次作业
一. 单选题(共5题,5分)
1. (单选题, 1分)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{2,4,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含 ( )
A. 1,2,4,5
B. 2,3,4,5
C. 1,2,3,5
D. 1,2,3,4
我的答案: A :1,2,4,5; 正确答案: A :1,2,4,5;
1分
2. (单选题, 1分)下面购物篮能够提取的3-项集的最大数量是多少 ( ) ID 购买项 T1 牛奶,啤酒,尿布 T2 面包,黄油,牛奶 T3 牛奶,尿布,饼干 T4 面包,黄油,饼干 T5 啤酒,饼干,尿布 T6 牛奶,尿布,面包,黄油 T7 面包,黄油,尿布 T8 啤酒,尿布 T9 牛奶,尿布,面包,黄油 T10 啤酒,饼干
A. 2
B. 4
C. 3
D. 1
我的答案: C :3; 正确答案: C :3;
1分
3. (单选题, 1分)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? ( )
A. 分类
B. 预测
C. 关联规则挖掘
D. 聚类
我的答案: C :关联规则挖掘; 正确答案: C :关联规则挖掘;
1分
4. (单选题, 1分)关于Apriori算法,以下哪句话是错误的( )。
A. 频繁项集的子集一定是频繁项集
B. 非频繁项集的超级一定是非频繁的
C. 频繁项集的超级不一定是频繁项集
D. 非频繁项集的子集一定是非繁项的
我的答案: D :非频繁项集的子集一定是非繁项的; 正确答案: D :非频繁项集的子集一定是非繁项的;
1分
5. (单选题, 1分)在关联规则挖掘中,用于标识关联规则需要满足的最低可靠性的指标是 ( )
A. 最小准确度
B. 最小提升度
C. 最小可信度
D. 最小支持度
我的答案: C :最小可信度; 正确答案: C :最小可信度;
1分
二. 多选题(共1题,2分)
6. (多选题, 2分)以下说法正确的是 ( )
A. Apriori算法中候选解的产生采取自连接的方式
B. 识别出所有频繁项集是Apriori算法的核心
C. Apriori算法需要多次访问事务数据库
D. FP-Growth算法相对于Apriori算法来说,对事务数据库的访问次数大大减少
我的答案: ABCD :Apriori算法中候选解的产生采取自连接的方式; 识别出所有频繁项集是Apriori算法的核心; Apriori算法需要多次访问事务数据库; FP-Growth算法相对于Apriori算法来说,对事务数据库的访问次数大大减少; 正确答案: ABCD :Apriori算法中候选解的产生采取自连接的方式; 识别出所有频繁项集是Apriori算法的核心; Apriori算法需要多次访问事务数据库; FP-Growth算法相对于Apriori算法来说,对事务数据库的访问次数大大减少;
2分
三. 填空题(共2题,3分)
7. (填空题, 1分)在Apriori算法候选项集的产生中,采取如下原则:如果一个项集不是频繁的, 将不产生/测试它的超集!该原则称为_____________。
我的答案:
1分
(1) 剪枝
正确答案:
(1) 剪枝;剪枝原则
8. (填空题, 2分)已知事务数据库中有5条数据,分别为 T1:{A,B,D,E};T2:{A,B,C,E};T3:{A,C,D};T4:{B,C,E};T5:{A,B,D, E},假设存在一条关联规则 {B,E} => {C},则该规则的支持度为____________。
我的答案:
2分
(1) 0.4
正确答案:
(1) 0.4;40%
———————————————
第4次作业
一. 单选题(共2题,2分)
1. (单选题, 1分)关于分类问题中,以下说法不正确的是( )
A. 描述属性可以是离散的
B. 类别属性可以是离散的
C. 类别属性可以是连续的
D. 描述属性可以是连续的
我的答案: C :类别属性可以是连续的; 正确答案: C :类别属性可以是连续的;
1分
2. (单选题, 1分)决策树中不包含一下哪种结点( )。
A. 外部节点
B. 叶节点
C. 内部节点
D. 根节点
我的答案: A :外部节点; 正确答案: A :外部节点;
1分
二. 多选题(共2题,4分)
3. (多选题, 2分)
关于决策树算法,以下说法正确的是( )
A. C4.5相对于ID3算法,减少了对特征数目较多的属性的依赖
B. ID3和C4.5算法原理简单,容易得到IF-Then的规则
C. C4.5算法和ID3算法一样,不能处理连续型属性
D. ID3算法依赖于特征数目较多的属性
我的答案: ABD :C4.5相对于ID3算法,减少了对特征数目较多的属性的依赖; ID3和C4.5算法原理简单,容易得到IF-Then的规则; ID3算法依赖于特征数目较多的属性; 正确答案: ABD :C4.5相对于ID3算法,减少了对特征数目较多的属性的依赖; ID3和C4.5算法原理简单,容易得到IF-Then的规则; ID3算法依赖于特征数目较多的属性;
2分
4. (多选题, 2分)
神经网络中,以下说法的正确的是 ( )
A. Delta学习规则称为梯度法,主要是通过减少单元间的连接权重来减小实际输出与期望输出之间的误差
B. 神经网络的学习主要包括网络结构的学习和连接权值的学习
C. 神经网络既可以进行线性分类,又可以进行非线性分类
D. BP神经网络是一个多层的前向神经网络
我的答案: BCD :神经网络的学习主要包括网络结构的学习和连接权值的学习; 神经网络既可以进行线性分类,又可以进行非线性分类; BP神经网络是一个多层的前向神经网络; 正确答案: BCD :神经网络的学习主要包括网络结构的学习和连接权值的学习; 神经网络既可以进行线性分类,又可以进行非线性分类; BP神经网络是一个多层的前向神经网络;
2分
三. 填空题(共7题,9分)
5. (填空题, 1分)BP神经网络包含输入层、输出层和_____________。
我的答案:
1分
(1) 隐藏层
正确答案:
(1) 隐层;隐含层;隐藏层;隐;隐含;隐藏
6. (填空题, 1分)决策树ID3算法中,采取____________作为属性选择的评价标准。
我的答案:
1分
(1) 信息增益
正确答案:
(1) 信息增益;最大信息增益
7. (填空题, 2分)
已知有如下关于是否贷款的数据,属性包括性别、收入和信誉度,如果采用ID3算法,则首先应该选择的属性是________________。
ID 性别 收入 信誉度 贷款
1 男 高 高 是
2 男 高 低 是
3 男 低 高 否
4 女 高 高 是
5 女 低 低 否
6 女 低 高 是
我的答案:
2分
(1) 信誉度
正确答案:
(1) 信誉度
8. (填空题, 2分)
下表是近5天的天气情况以及在此天气情况下是否打篮球的样本数据。对于某一天,已知其属性集 X = <低,低,多云>,利用朴素贝叶斯分类器分析是否可以打篮球,____________(横线上只允许填写 是 或者 否)
我的答案:
2分
(1) 否
正确答案:
(1) 否
9. (填空题, 1分)
朴素贝叶斯分类器假设属性之间是独立的,这种假设称为________________假设。
我的答案:
1分
(1) 类条件独立
正确答案:
(1) 类条件独立;类条件独立性
10. (填空题, 1分)
已知数据集的真实分类和预测分类结果如下表,对于贷款=Yes来说,查准率为__________ (用百分数表示,小数部分保留2位)。
我的答案:
1分
(1) 0.75
正确答案:
(1) 75%;75.00%;0.75
11. (填空题, 1分)贝叶斯网络中两个主要的成分分别是有向无环图和____________________。
我的答案:
1分
(1) 条件概率表
正确答案:
(1) 条件概率;条件概率表
———————————————
第5次作业
一. 单选题(共4题,4分)
1. (单选题, 1分)
已知如下包含多值离散型属性的数据集,则哪两个人之间的相似度最大 ( )
A. 张三和王五
B. 王五和赵六
C. 李四和王五
D. 张三和李四
我的答案: B :王五和赵六; 正确答案: B :王五和赵六;
1分
2. (单选题, 1分)
以下哪个不是聚类分析时需要考虑的重要因素( )
A. 聚类结果的使用
B. 聚类过程终止标准
C. 聚类性能评价标准
D. 样本间相似性度量标准
我的答案: A :聚类结果的使用; 正确答案: A :聚类结果的使用;
1分
3. (单选题, 1分)对于一个好的聚类分析结果来说,以下哪种说法是正确的( )
A. 类内相似性大,类间相异性大
B. 类内相似性小,类间相异性大
C. 类内相似性大,类间相异性小
D. 类内相似性小,类间相异性小
我的答案: A :类内相似性大,类间相异性大; 正确答案: A :类内相似性大,类间相异性大;
1分
4. (单选题, 1分)将每个样本都做为一个独立的类簇,然后按照距离度量原则,不断合并最近的类簇,直至所有样本都合并为一个类簇,或者满足终止条件,这种聚类方式称为( )
A. 基于密度的聚类
B. 基于模型的聚类
C. 基于分割的聚类
D. 层次聚类
我的答案: D :层次聚类; 正确答案: D :层次聚类;
1分
二. 多选题(共3题,6分)
5. (多选题, 2分)层次聚类方法中常用的相似性度量包括 ( )
A. 最小距离
B. 最大距离
C. 平均距离
D. 均值距离
我的答案: ABCD :最小距离; 最大距离; 平均距离; 均值距离; 正确答案: ABCD :最小距离; 最大距离; 平均距离; 均值距离;
2分
6. (多选题, 2分)
聚类分析方法得性能指标包括( )
A. 可扩展性
B. 鲁棒性
C. 自适应型
D. 可解释性
我的答案: ABCD :可扩展性; 鲁棒性; 自适应型; 可解释性; 正确答案: ABCD :可扩展性; 鲁棒性; 自适应型; 可解释性;
2分
7. (多选题, 2分)
以下关于聚类说法正确的是 ( )
A. K-Means聚类执行速度比K-中心点聚类快
B. K-Means聚类需要事先给出类簇个数,而K-中心点聚类不需要事先提供类簇个数
C. K-Means聚类对噪声数据比K-中心点聚类更敏感
D. K-Means聚类比K-中心点聚类更易受初始类簇中心点选择的影响
我的答案: AC :K-Means聚类执行速度比K-中心点聚类快; K-Means聚类对噪声数据比K-中心点聚类更敏感; 正确答案: AC