数据挖掘期末背诵

一.选择题

1. 将原始数据进行集成、变换、维度规约、数值规约是数据预处理的任务

A、频繁模式挖掘 B、分类和预测 C、数据预处理 D、数据流挖掘

2. 以下属于关联分析的是

 A. CPU性能分析  B. 购物篮分析 C. 自动判断鸢尾花类别 D. 股票趋势建模

3. 下面哪个不属于数据的属性类型

 A. 标称    B. 序数    C. 区间    D. 相异

4. 在图集合中发现一组公共子结构,这样的任务称为 频繁子图挖掘

5. 以下关于决策树的说法哪项是错误的:

 A. 冗余属性不会对决策树的准确率造成不利的影响

 B. 子树可能在决策树中重复多次

 C. 决策树算法对于噪声的干扰非常敏感(错误的)

 D. 寻找最佳决策树是NP完全问题

6. 决策树中不包含以下哪种节点

 A. 根结点(root  node)

 B. 内部结点(internal  node)

 C. 外部结点(external  node)

 D. 叶结点(leaf  node)

7. 关于K均值和DBSCAN的比较,以下说法不正确的是

 A. K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象

 B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念

 C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇

 D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

8.  下面哪个属于映射数据到新的空间的方法

 A. 傅里叶变换    B. 特征加权    C. 渐进抽样    D. 维归约

9. 以下哪种分类方法可以较好地避免样本的不平衡问题

 A. KNN    B. SVM    C.Bayes D. 神经网络

10. 以下哪种方法不属于特征选择的标准方法

 A. 嵌入    B. 过滤 C. 包装 D.抽样

11. 通过聚集多个分类器的预测来提高分类准确率的技术称为:组合(ensemble)

A、组合(ensemble) B、聚集(aggregate) C、合并(combination) D、投票(voting)

  1. BIRCH是一种 聚类算法

A、分类器 B、聚类算法 C、关联分析算法 D、特征选择算法

  1. 检测一元正态分布中的离群点,属于异常检测中的基于 统计方法 的离群点检测
  1. 统计⽅法 B、邻近度 C、密度 D、聚类技术

14. AI的英文缩写是 Artificial Intelligence

A、 Automatic Intelligence B、 Artificial Intelligence

C、 Automatic Information D、 Artificial Information

15. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是 渐进抽样

A、有放回的简单随机抽样 B、⽆放回的简单随机抽样 C、分层抽样 D、渐进抽样

16. 以下哪些算法是基于规则的分类器

 A. C4.5 B. KNN C. Naive  Bayes D. ANN

17. 下列哪个不是专门用于可视化时间空间数据的技术

  A. 等高线图 B. 饼图 C. 曲面图 D. 矢量场图

18. 假定用于分析的数据包包含属性age。数据元组中age的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:

 A. 18.3 B. 22.6 C. 26.8 D. 27.9

19. 下面那种不属于数据预处理的方法

A. 变量代换 B. 离散化 C. 聚集 D. 估计遗漏值

20. 离群点是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的

A、边界点 B、质⼼ C、离群点 D、核⼼点

二. 填空题

1. 目前两种流行、有效的有损数据压缩方法是:小波变换主要成分分析

2. 决策树对噪声数据有很好的 健壮性且能学习析取表达式

3. 两个数理统计的最基本的方法是参数估计假设检验

4. 模糊数学由扎德Zadeh等人于1965年提出

5. 协同过滤算法包括:

基于记忆的协同过滤推荐(Memory-based)基于模型的算法(Model-based)

6. 维归约常用的线性代数技术有主成分分析奇异值分解

7. 分类模型的误差大致分为两种训练误差泛化误差

8. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数

9. 数据挖掘的预测建模任务主要包括分类回归

10. 聚类分析是指把一个给定的数据集分成不同的或类

三. 简答题

1. 什么是属性子集选择?常见的属性子集选择方法有哪几种?

属性子集选择通过删除不相关或冗余的属性减少数据量,属性子集选择常用贪心算法,通过局部最优解,期望导致全局最优解。它的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。

常⻅的⽅法有:过滤法、包装法、嵌⼊法。

  1. 详细阐述数据挖掘的主要步骤

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程

数据挖掘主要步骤包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施

①定义问题了解数据和业务问题,对目标有一个清晰明确的定义,即决定到底想干什么。

②建立数据挖掘库建⽴数据挖掘库包括以下⼏个步骤:数据收集、数据描述、选择、数据质量评估和数据清理、合 并与整合、构建元数据、加载数据挖掘库、维护数据挖掘库。

③分析数据:找到对预测输出影响最大的数据字段和决定是否需要定义导出字段。

④准备数据:此步骤分为四个部分:选择变量、选择记录、创建新变量、转换变量。

⑤建立模型:先用一部分数据建立模型,再用剩下的数据来测试和验证这个得到的模型。

训练和测试数据挖掘模型需要把数据至少分为两部分,一部分用于模型训练,另一个用于模型测试。

⑥评价模型:模型建立好之后,必须评价得到的结果、解释模型的价值,从测试集中得到的准确率只对⽤于建⽴模型的数据有意义。

在实际应用中,先在小范围内应用,取得测试数据,觉得满意后再向大范围推广。

⑦实施:模型建立并经过验证之后,可以有两种主要的使用方法。一种是提供给分析人员做参考,另一

种是把此模型应用到不同的数据集上。

3. 什么是聚类?

聚类就是对⼤量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较

⼤⽽类别间的数据相似度较⼩,其本质上是根据某种相似性进行抽象的过程.

  1. Jaccard系数

数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。

  • 11
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值