数据挖掘学习通期末作业1-5

第1次作业


一. 单选题(共3题,3分)
1. (单选题, 1分)用于对随时间变化的数据对象的变化规律和趋势进行建模描述的数据挖掘研究称为(   )。

    A. 数据预测
    B. 孤立点分析
    C. 数据分类
    D. 演化分析

我的答案: D :演化分析; 正确答案: D :演化分析;
1分
2. (单选题, 1分)如果在当前数据基础上,想看更为明细的数据,则应该执行的操作是( )

    A. 切块
    B. 旋转
    C. 下钻
    D. 上卷

我的答案: C :下钻; 正确答案: C :下钻;
1分
3. (单选题, 1分)以下关于OLTP和OLAP的区别,错误的是( )

    A. OLTP关注当前和本地的数据,而OLAP关注集成数据
    B. OLTP处理的数据是当前的详细数据,而OLAP处理历史数据
    C. OLTP的访问模式包括对数据的更新、查询,而OLAP进行只读操作
    D. OLTP面向市场,而OLAP面向客户

我的答案: D :OLTP面向市场,而OLAP面向客户; 正确答案: D :OLTP面向市场,而OLAP面向客户;
1分
二. 多选题(共2题,4分)
4. (多选题, 2分)数据的质量包括( )

    A. 精确性
    B. 完整性
    C. 可信性
    D. 一致性

我的答案: ABCD :精确性; 完整性; 可信性; 一致性; 正确答案: ABCD :精确性; 完整性; 可信性; 一致性;
2分
5. (多选题, 2分)关于OLTP和OLAP的区别,主要体现在哪些方面( )

    A. 访问模式
    B. 处理对象
    C. 软件操作
    D. 数据内容

我的答案: ABD :访问模式; 处理对象; 数据内容; 正确答案: ABD :访问模式; 处理对象; 数据内容;
2分
三. 填空题(共3题,3分)
6. (填空题, 1分)KDD又称为数据库中的知识发现,它的核心步骤是____________。

我的答案:
1分
    (1) 数据挖掘

正确答案:
    (1) 数据挖掘

7. (填空题, 1分)已知收入的最小值是2000,最大值是14000,那么对于4000,采用最小-最大规范化后得到的数值是_______________(保留3位小数,采取四舍五入)

我的答案:
1分
    (1) 0.17

正确答案:
    (1) 0.17

8. (填空题, 1分)数据挖掘任务中,对差异和极端特例的描述,揭示事物偏离常规的异常现象的这类知识,称为_____________。

我的答案:
1分
    (1) 偏差知识

正确答案:
    (1) 偏差型知识;偏差知识

———————————————

第2次作业

一. 单选题(共4题,4分)
1. (单选题, 1分)如果在当前数据基础上,想看汇总数据,则应该执行的操作是( )

    A. 切块
    B. 上卷
    C. 下钻
    D. 旋转

我的答案: B :上卷; 正确答案: B :上卷;
1分
2. (单选题, 1分)处理缺失值时,以下哪个不是自动填充的方式( )

    A. 使用随机值
    B. 使用属性的平均值
    C. 使用最可能的值
    D. 使用全局变量

我的答案: A :使用随机值; 正确答案: A :使用随机值;
1分
3. (单选题, 1分)下列哪项不属于数据仓库的特点( )

    A. 集成的
    B. 面型主题的
    C. 不变的
    D. 非易失的

我的答案: C :不变的; 正确答案: C :不变的;
1分
4. (单选题, 1分)数据挖掘中,如果希望以相对小的数据实现和原数据相同或接近的分析结果,则应该进行的预处理是( )

    A. 数据集成
    B. 数据规约
    C. 数据清理
    D. 数据分层

我的答案: B :数据规约; 正确答案: B :数据规约;
1分
二. 多选题(共2题,4分)
5. (多选题, 2分)关于数据挖掘,以下说法正确的是( )

    A. 数据挖掘是知识库中知识发现的核心步骤
    B. 数据挖掘中,数据质量和挖掘算法都重要
    C. 数据挖掘中,数据预处理是工作量最大的环节
    D. 数据挖掘中,更重要的是挖掘算法,优秀的数据挖掘算法可以弥补数据质量的缺陷,得到高质量的挖掘结果

我的答案: ABC :数据挖掘是知识库中知识发现的核心步骤; 数据挖掘中,数据质量和挖掘算法都重要; 数据挖掘中,数据预处理是工作量最大的环节; 正确答案: ABC :数据挖掘是知识库中知识发现的核心步骤; 数据挖掘中,数据质量和挖掘算法都重要; 数据挖掘中,数据预处理是工作量最大的环节;
2分
6. (多选题, 2分)数据规约包括( )

    A. 维规约
    B. 数据压缩
    C. 数据立方体聚集
    D. 数值规约

我的答案: ABCD :维规约; 数据压缩; 数据立方体聚集; 数值规约; 正确答案: ABCD :维规约; 数据压缩; 数据立方体聚集; 数值规约;
2分
三. 填空题(共2题,2分)
7. (填空题, 1分)从一组特征集合中,选出一部分作为最优特征的过程叫做_______________。

我的答案:
1分
    (1) 特征选择

正确答案:
    (1) 特征选择;特征选择和提取;特征选择或提取;特征选择与提取;特征提取

8. (填空题, 1分)原始数据是2247,采用小数定标后得到的数值是_______________(保留3位小数,采取四舍五入)

我的答案:
1分
    (1) 0.23

正确答案:
    (1) 0.23

———————————————

第3次作业

一. 单选题(共5题,5分)
1. (单选题, 1分)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{2,4,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含 (   )

    A. 1,2,4,5
    B. 2,3,4,5
    C. 1,2,3,5
    D. 1,2,3,4

我的答案: A :1,2,4,5; 正确答案: A :1,2,4,5;
1分
2. (单选题, 1分)下面购物篮能够提取的3-项集的最大数量是多少 ( ) ID 购买项 T1 牛奶,啤酒,尿布 T2 面包,黄油,牛奶 T3 牛奶,尿布,饼干 T4 面包,黄油,饼干 T5 啤酒,饼干,尿布 T6 牛奶,尿布,面包,黄油 T7 面包,黄油,尿布 T8 啤酒,尿布 T9 牛奶,尿布,面包,黄油 T10 啤酒,饼干

    A. 2
    B. 4
    C. 3
    D. 1

我的答案: C :3; 正确答案: C :3;
1分
3. (单选题, 1分)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题? ( )

    A. 分类
    B. 预测
    C. 关联规则挖掘
    D. 聚类

我的答案: C :关联规则挖掘; 正确答案: C :关联规则挖掘;
1分
4. (单选题, 1分)关于Apriori算法,以下哪句话是错误的( )。

    A. 频繁项集的子集一定是频繁项集
    B. 非频繁项集的超级一定是非频繁的
    C. 频繁项集的超级不一定是频繁项集
    D. 非频繁项集的子集一定是非繁项的

我的答案: D :非频繁项集的子集一定是非繁项的; 正确答案: D :非频繁项集的子集一定是非繁项的;
1分
5. (单选题, 1分)在关联规则挖掘中,用于标识关联规则需要满足的最低可靠性的指标是 ( )

    A. 最小准确度
    B. 最小提升度
    C. 最小可信度
    D. 最小支持度

我的答案: C :最小可信度; 正确答案: C :最小可信度;
1分
二. 多选题(共1题,2分)
6. (多选题, 2分)以下说法正确的是 ( )

    A. Apriori算法中候选解的产生采取自连接的方式
    B. 识别出所有频繁项集是Apriori算法的核心
    C. Apriori算法需要多次访问事务数据库
    D. FP-Growth算法相对于Apriori算法来说,对事务数据库的访问次数大大减少

我的答案: ABCD :Apriori算法中候选解的产生采取自连接的方式; 识别出所有频繁项集是Apriori算法的核心; Apriori算法需要多次访问事务数据库; FP-Growth算法相对于Apriori算法来说,对事务数据库的访问次数大大减少; 正确答案: ABCD :Apriori算法中候选解的产生采取自连接的方式; 识别出所有频繁项集是Apriori算法的核心; Apriori算法需要多次访问事务数据库; FP-Growth算法相对于Apriori算法来说,对事务数据库的访问次数大大减少;
2分
三. 填空题(共2题,3分)
7. (填空题, 1分)在Apriori算法候选项集的产生中,采取如下原则:如果一个项集不是频繁的, 将不产生/测试它的超集!该原则称为_____________。

我的答案:
1分
    (1) 剪枝

正确答案:
    (1) 剪枝;剪枝原则

8. (填空题, 2分)已知事务数据库中有5条数据,分别为 T1:{A,B,D,E};T2:{A,B,C,E};T3:{A,C,D};T4:{B,C,E};T5:{A,B,D, E},假设存在一条关联规则 {B,E} => {C},则该规则的支持度为____________。

我的答案:
2分
    (1) 0.4

正确答案:
    (1) 0.4;40%

———————————————

第4次作业

一. 单选题(共2题,2分)
1. (单选题, 1分)关于分类问题中,以下说法不正确的是( )

    A. 描述属性可以是离散的
    B. 类别属性可以是离散的
    C. 类别属性可以是连续的
    D. 描述属性可以是连续的

我的答案: C :类别属性可以是连续的; 正确答案: C :类别属性可以是连续的;
1分
2. (单选题, 1分)决策树中不包含一下哪种结点( )。

    A. 外部节点
    B. 叶节点
    C. 内部节点
    D. 根节点

我的答案: A :外部节点; 正确答案: A :外部节点;
1分
二. 多选题(共2题,4分)
3. (多选题, 2分)
关于决策树算法,以下说法正确的是(   )

    A. C4.5相对于ID3算法,减少了对特征数目较多的属性的依赖
    B. ID3和C4.5算法原理简单,容易得到IF-Then的规则
    C. C4.5算法和ID3算法一样,不能处理连续型属性
    D. ID3算法依赖于特征数目较多的属性

我的答案: ABD :C4.5相对于ID3算法,减少了对特征数目较多的属性的依赖; ID3和C4.5算法原理简单,容易得到IF-Then的规则; ID3算法依赖于特征数目较多的属性; 正确答案: ABD :C4.5相对于ID3算法,减少了对特征数目较多的属性的依赖; ID3和C4.5算法原理简单,容易得到IF-Then的规则; ID3算法依赖于特征数目较多的属性;
2分
4. (多选题, 2分)
神经网络中,以下说法的正确的是  (   )

    A. Delta学习规则称为梯度法,主要是通过减少单元间的连接权重来减小实际输出与期望输出之间的误差
    B. 神经网络的学习主要包括网络结构的学习和连接权值的学习
    C. 神经网络既可以进行线性分类,又可以进行非线性分类
    D. BP神经网络是一个多层的前向神经网络

我的答案: BCD :神经网络的学习主要包括网络结构的学习和连接权值的学习; 神经网络既可以进行线性分类,又可以进行非线性分类; BP神经网络是一个多层的前向神经网络; 正确答案: BCD :神经网络的学习主要包括网络结构的学习和连接权值的学习; 神经网络既可以进行线性分类,又可以进行非线性分类; BP神经网络是一个多层的前向神经网络;
2分
三. 填空题(共7题,9分)
5. (填空题, 1分)BP神经网络包含输入层、输出层和_____________。

我的答案:
1分
    (1) 隐藏层

正确答案:
    (1) 隐层;隐含层;隐藏层;隐;隐含;隐藏

6. (填空题, 1分)决策树ID3算法中,采取____________作为属性选择的评价标准。

我的答案:
1分
    (1) 信息增益

正确答案:
    (1) 信息增益;最大信息增益

7. (填空题, 2分)

已知有如下关于是否贷款的数据,属性包括性别、收入和信誉度,如果采用ID3算法,则首先应该选择的属性是________________。

ID   性别   收入   信誉度   贷款

1    男      高       高         是

2    男      高       低         是

3    男      低       高         否

4    女      高       高         是

5    女      低       低         否

6    女      低       高         是    

我的答案:
2分
    (1) 信誉度

正确答案:
    (1) 信誉度

8. (填空题, 2分)

下表是近5天的天气情况以及在此天气情况下是否打篮球的样本数据。对于某一天,已知其属性集 X = <低,低,多云>,利用朴素贝叶斯分类器分析是否可以打篮球,____________(横线上只允许填写 是 或者 否)

 


我的答案:
2分
    (1) 否

正确答案:
    (1) 否

9. (填空题, 1分)
朴素贝叶斯分类器假设属性之间是独立的,这种假设称为________________假设。

我的答案:
1分
    (1) 类条件独立

正确答案:
    (1) 类条件独立;类条件独立性

10. (填空题, 1分)

已知数据集的真实分类和预测分类结果如下表,对于贷款=Yes来说,查准率为__________ (用百分数表示,小数部分保留2位)。

 


我的答案:
1分
    (1) 0.75

正确答案:
    (1) 75%;75.00%;0.75

11. (填空题, 1分)贝叶斯网络中两个主要的成分分别是有向无环图和____________________。

我的答案:
1分
    (1) 条件概率表

正确答案:
    (1) 条件概率;条件概率表

———————————————

第5次作业

一. 单选题(共4题,4分)
1. (单选题, 1分)

已知如下包含多值离散型属性的数据集,则哪两个人之间的相似度最大 (        )

 

    A. 张三和王五
    B. 王五和赵六
    C. 李四和王五
    D. 张三和李四

我的答案: B :王五和赵六; 正确答案: B :王五和赵六;
1分
2. (单选题, 1分)
以下哪个不是聚类分析时需要考虑的重要因素(        )

    A. 聚类结果的使用
    B. 聚类过程终止标准
    C. 聚类性能评价标准
    D. 样本间相似性度量标准

我的答案: A :聚类结果的使用; 正确答案: A :聚类结果的使用;
1分
3. (单选题, 1分)对于一个好的聚类分析结果来说,以下哪种说法是正确的(        )

    A. 类内相似性大,类间相异性大
    B. 类内相似性小,类间相异性大
    C. 类内相似性大,类间相异性小
    D. 类内相似性小,类间相异性小

我的答案: A :类内相似性大,类间相异性大; 正确答案: A :类内相似性大,类间相异性大;
1分
4. (单选题, 1分)将每个样本都做为一个独立的类簇,然后按照距离度量原则,不断合并最近的类簇,直至所有样本都合并为一个类簇,或者满足终止条件,这种聚类方式称为(    )

    A. 基于密度的聚类
    B. 基于模型的聚类
    C. 基于分割的聚类
    D. 层次聚类

我的答案: D :层次聚类; 正确答案: D :层次聚类;
1分
二. 多选题(共3题,6分)
5. (多选题, 2分)层次聚类方法中常用的相似性度量包括    (    )

    A. 最小距离
    B. 最大距离
    C. 平均距离
    D. 均值距离

我的答案: ABCD :最小距离; 最大距离; 平均距离; 均值距离; 正确答案: ABCD :最小距离; 最大距离; 平均距离; 均值距离;
2分
6. (多选题, 2分)
聚类分析方法得性能指标包括(        )

    A. 可扩展性
    B. 鲁棒性
    C. 自适应型
    D. 可解释性

我的答案: ABCD :可扩展性; 鲁棒性; 自适应型; 可解释性; 正确答案: ABCD :可扩展性; 鲁棒性; 自适应型; 可解释性;
2分
7. (多选题, 2分)
以下关于聚类说法正确的是    (        )

    A. K-Means聚类执行速度比K-中心点聚类快
    B. K-Means聚类需要事先给出类簇个数,而K-中心点聚类不需要事先提供类簇个数
    C. K-Means聚类对噪声数据比K-中心点聚类更敏感
    D. K-Means聚类比K-中心点聚类更易受初始类簇中心点选择的影响

我的答案: AC :K-Means聚类执行速度比K-中心点聚类快; K-Means聚类对噪声数据比K-中心点聚类更敏感; 正确答案: AC

  • 13
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: Python数据挖掘期末大作业是一项非常有挑战性的任务,要求学生能够利用Python语言和数据挖掘的技术与方法,从海量数据中提取知识和信息,解决实际问题。在这个大作业中,学生需要选择一个特定的数据集或问题,并使用Python中的数据挖掘工具和算法,进行数据的清洗、预处理、可视化、建模和评估。 在进行数据清理的过程中,学生需要对数据进行缺失值填充、异常值处理、重复值删除等操作,使得数据集更加规整、干净,便于后续的数据分析和建模。在数据预处理的过程中,学生需要进行特征选择、降维处理、归一化等操作,以便于使用不同的算法进行建模。 在进行建模的过程中,学生需要选择合适的算法,如分类、聚类、预测等算法,并进行模型训练、参数调优等操作,以得到最佳的模型效果。在评估模型的过程中,学生需要使用交叉验证、ROC曲线、F1值等指标,对模型的性能进行评估和比较,以选择最有用的模型。 最终,学生需要对挖掘的结果进行总结和分析,并提出进一步的研究方向和建议。过这个大作业,学生可以深入学习数据挖掘的理论与实践,提高自己的数据分析能力和编程能力,为日后的科研和工作打下坚实的基础。 ### 回答2: 作为一个语言易学、功能强大、支持多种数据科学应用的编程语言,Python在数据挖掘领域有着广泛的应用。期末大作业是对于学生在学习过程中所掌握的知识点进行综合应用评估的重要手段,而Python数据挖掘的期末大作业则更具有实践与综合性。在该课程的大作业中,学生可能会面临以下的挑战与任务: 1. 数据预处理:过分析数据的特点和目标,对数据进行缺失值处理、异常值识别和处理、离散化等预处理步骤,以充分利用数据提取模型的有效信息。 2. 特征选取和降维:在进行数据挖掘时,往往需要在样本特征中选取重要的特征进行建模。学生可能需要使用关系数、主成分分析、因子分析等方法对特征进行选取和降维。 3. 建立并优化模型:常用的数据挖掘模型包括分类、聚类和回归等,学生需要选择适合实验数据和目标的模型进行建模。过模型调整参数、优化训练方法等措施提高模型预测准确率。 4. 结果可视化:对于模型最终的预测结果,学生需要使用图表、统计分析等方式对结果进行可视化展示,并对模型给出的预测结果进行解释评估。 Python数据挖掘的期末大作业是一次实践与探索数据挖掘技术的机会,需要充分利用已有的Python数据挖掘库进行探索和实践,将所学理论知识与实践技能结合起来,完成一次有价值的数据挖掘分析。 ### 回答3: Python数据挖掘期末大作业是一项综合实践性较强的任务,需要学生在课程学习的基础上,将所掌握的理论和技能运用到实际项目当中。整个项目包括数据获取、数据预处理、特征工程、模型选择及评估等多个环节,要求学生具备较强的数据分析能力和编程能力。 对于数据挖掘期末大作业,我认为,重点在于项目的设计和技术实现。首先,学生需要根据所选择的数据集,确定合适的数据挖掘目标,并寻找应的解决方案。其次,在数据预处理阶段,学生需要利用python的数据分析库,对原始数据进行清洗、去噪、归一化、缺失值处理等操作,准备好可用于模型训练的数据集。此外,在特征工程和模型选择环节,学生需要根据数据挖掘目标选择合适的特征和模型,并对模型进行调优和评估,以提高模型的预测精度。 在实现过程中,学生应该注重代码规范和可读性,采用良好的编码习惯和注释规范,保证代码易于维护和升级。此外,学生还应该充分利用开源工具和代码库,如Scikit-learn、pandas等,提高开发效率和代码质量。 总之,Python数据挖掘期末大作业对学生的能力提升和综合素质提高都有重要作用,课程教学应该注重实践教学和项目实践,培养学生的实际应用能力和创新能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值