数据挖掘期末背诵

霊神之殇

于 2024-04-25 16:25:16 发布

阅读量824

点赞数 11

文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46210893/article/details/138192990

版权

一．选择题

1. 将原始数据进行集成、变换、维度规约、数值规约是数据预处理的任务

A、频繁模式挖掘 B、分类和预测 C、数据预处理 D、数据流挖掘

2. 以下属于关联分析的是

A. CPU性能分析 B. 购物篮分析 C. 自动判断鸢尾花类别 D. 股票趋势建模

3. 下面哪个不属于数据的属性类型

A. 标称 B. 序数 C. 区间 D. 相异

4. 在图集合中发现一组公共子结构，这样的任务称为 频繁子图挖掘

5. 以下关于决策树的说法哪项是错误的：

A. 冗余属性不会对决策树的准确率造成不利的影响

B. 子树可能在决策树中重复多次

C. 决策树算法对于噪声的干扰非常敏感（错误的）

D. 寻找最佳决策树是NP完全问题

6. 决策树中不包含以下哪种节点

A. 根结点（root node）

B. 内部结点(internal node)

C. 外部结点(external node)

D. 叶结点(leaf node)

7. 关于K均值和DBSCAN的比较，以下说法不正确的是

A. K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象

B. K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念

C. K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇

D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇

8. 下面哪个属于映射数据到新的空间的方法

A. 傅里叶变换 B. 特征加权 C. 渐进抽样 D. 维归约

9. 以下哪种分类方法可以较好地避免样本的不平衡问题

A. KNN B. SVM C.Bayes D. 神经网络

10. 以下哪种方法不属于特征选择的标准方法

A. 嵌入 B. 过滤 C. 包装 D.抽样

11. 通过聚集多个分类器的预测来提高分类准确率的技术称为：组合（ensemble）

A、组合(ensemble) B、聚集(aggregate) C、合并(combination) D、投票(voting)

BIRCH是一种 聚类算法

A、分类器 B、聚类算法 C、关联分析算法 D、特征选择算法

检测一元正态分布中的离群点，属于异常检测中的基于 统计方法 的离群点检测

统计⽅法 B、邻近度 C、密度 D、聚类技术

14. AI的英文缩写是 Artificial Intelligence

A、 Automatic Intelligence B、 Artificial Intelligence

C、 Automatic Information D、 Artificial Information

15. 在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是 渐进抽样

A、有放回的简单随机抽样 B、⽆放回的简单随机抽样 C、分层抽样 D、渐进抽样

16. 以下哪些算法是基于规则的分类器

A. C4.5 B. KNN C. Naive Bayes D. ANN

17. 下列哪个不是专门用于可视化时间空间数据的技术

A. 等高线图 B. 饼图 C. 曲面图 D. 矢量场图

18. 假定用于分析的数据包包含属性age。数据元组中age的值如下(按递增序)：

13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。第二个箱子值为：

A. 18.3 B. 22.6 C. 26.8 D. 27.9

19. 下面那种不属于数据预处理的方法

A. 变量代换 B. 离散化 C. 聚集 D. 估计遗漏值

20. 离群点是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的

A、边界点 B、质⼼ C、离群点 D、核⼼点

二. 填空题

1. 目前两种流行、有效的有损数据压缩方法是：小波变换和主要成分分析

2. 决策树对噪声数据有很好的 健壮性且能学习析取表达式

3. 两个数理统计的最基本的方法是参数估计和假设检验

4. 模糊数学由扎德Zadeh等人于1965年提出

5. 协同过滤算法包括:

基于记忆的协同过滤推荐(Memory-based)和基于模型的算法(Model-based)

6. 维归约常用的线性代数技术有主成分分析和奇异值分解

7. 分类模型的误差大致分为两种训练误差和泛化误差

8. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数

9. 数据挖掘的预测建模任务主要包括分类和回归

10. 聚类分析是指把一个给定的数据集分成不同的簇或类

三. 简答题

1. 什么是属性子集选择？常见的属性子集选择方法有哪几种？

属性子集选择通过删除不相关或冗余的属性减少数据量，属性子集选择常用贪心算法，通过局部最优解,期望导致全局最优解。它的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布。

常⻅的⽅法有：过滤法、包装法、嵌⼊法。

详细阐述数据挖掘的主要步骤

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程

数据挖掘主要步骤包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施

①定义问题：了解数据和业务问题，对目标有一个清晰明确的定义，即决定到底想干什么。

②建立数据挖掘库：建⽴数据挖掘库包括以下⼏个步骤：数据收集、数据描述、选择、数据质量评估和数据清理、合并与整合、构建元数据、加载数据挖掘库、维护数据挖掘库。

③分析数据:找到对预测输出影响最大的数据字段和决定是否需要定义导出字段。

④准备数据:此步骤分为四个部分：选择变量、选择记录、创建新变量、转换变量。

⑤建立模型:先用一部分数据建立模型，再用剩下的数据来测试和验证这个得到的模型。

训练和测试数据挖掘模型需要把数据至少分为两部分，一部分用于模型训练，另一个用于模型测试。

⑥评价模型:模型建立好之后，必须评价得到的结果、解释模型的价值,从测试集中得到的准确率只对⽤于建⽴模型的数据有意义。

在实际应用中，先在小范围内应用，取得测试数据，觉得满意后再向大范围推广。

⑦实施:模型建立并经过验证之后，可以有两种主要的使用方法。一种是提供给分析人员做参考，另一

种是把此模型应用到不同的数据集上。

3. 什么是聚类？

聚类就是对⼤量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较

⼤⽽类别间的数据相似度较⼩，其本质上是根据某种相似性进行抽象的过程.

Jaccard系数

数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。

关注

11
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘期末背诵

13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。建⽴数据挖掘库包括以下⼏个步骤：数据收集、数据描述、选择、数据质量评估和数据清理、合并与整合、构建元数据、加载数据挖掘库、维护数据挖掘库。模型建立好之后，必须评价得到的结果、解释模型的价值,从测试集中得到的准确率只对⽤于建⽴模型的数据有意义。模型建立并经过验证之后，可以有两种主要的使用方法。
复制链接

扫一扫

博客等级

码龄4年

24
原创

78
点赞

99
收藏

71
粉丝

关注

私信

热门文章

分类专栏

笔记 4篇

最新评论

数据库复习
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
PAC初识
SimpleZihao: 腱子哥太强咧~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。