数据挖掘期末考知识点汇总(带答案)

最新推荐文章于 2023-11-05 20:27:16 发布

二七的bug杂谈

最新推荐文章于 2023-11-05 20:27:16 发布

阅读量4.7k

点赞数 20

文章标签：数据挖掘服务器人工智能

本文链接：https://blog.csdn.net/2301_76820259/article/details/131339094

版权

文章介绍了知识发现的过程，包括数据清理、集成、挖掘和模式评估。讨论了概念分层在数据汇总中的作用，多维数据模型上的OLAP操作如上卷、下钻、切片切块等。还涵盖了数据预处理技术，如数据清洗、集成、归约和变换。此外，提到了数据仓库和数据集市的特点，以及数据挖掘的核心概念和关联规则的度量。

摘要由CSDN通过智能技术生成

1．知识发现过程包括哪些步骤？
Data cleaning、data integration形成data warehouse，从中选择task-relevant data(任务相关数据)进行data mining，最后pattern evaluation(模式评估)
2．什么是概念分层？
一个概念分层定义了一个映射序列，将低层概念映射到更一般的高层概念。
（为什么提出概念分层？因为有利于数据的汇总，允许我们在各层概念集审查数据）
3．多维数据模型上的OLAP操作包括哪些？
上卷(Roll-up/Drill up)：汇总数据，通过维的概念分层向上攀升或者是维归约来汇总数据
下钻(Drill-down/roll down)：上卷的逆操作，从高层的汇总到低层汇总，或者是观察更详细的数据，或者是引入一个新的维
切片切块(Slice and Dice)：投影和选择
旋转(Pivot/rotate)：对立方体的重定位，还有可视化，或者将一个3维的立方体转化为一个二维的平面序列
钻过(drill across)：执行涉及多个事实表的查询;
钻透(drill through)：使用关系SQL机制,钻到数据立方体的底层,到后端关系表
4．OLAP服务器类型有哪几种？
关系OLAP服务器：使用关系的或者扩展的DBMS来存储和管理数据仓库数据以及OLAP的中间件，包括每个DBMS的后端优化，还有聚集导航的逻辑实现，以及附加的工具和服务，有比较大的可伸缩性
多维OLAP服务器：基于稀疏数组的多维存储引擎，对预计算的汇总数据进行快速处理
混合OLAP服务器：结合关系OLAP服务器和多维OLAP服务器，集成了他们的优点，有更大的灵活性
特殊OLAP服务器：在星型和雪花型模式上支持SQL查询
5．数据预处理技术包括哪些？
Data cleaning数据清洗：填补缺失值，平滑噪声数据，识别或去除异常值，处理不一致
Data integration数据集成：多个数据库、数据集或文件的集成
Data reduction数据归约：降维，降数，数据压缩
Data transformation and data discretization数据变换与离散化：归一化，概念层次生成
6．什么是数据清理？
填写缺失的值，平滑噪声数据，识别、删除离群点，解决不一致性
7．什么是数据集成？
combines data from multiple sources into a coherent store
将来自多个数据源的数据合并到一个一致的存储中
8．什么是数据变换？
A function that maps the entire set of values of a given attribute to a new set of replacement values s.t. each old value can be identified with one of the new values
通过一个函数进行，将给定数据的整个值集合映射到一组新的替代值上面，使得每一个旧值可以用一个新的值来表示
9．什么是数据归约？
Obtain a reduced representation of the data set that is much smaller in volume but yet produces the same (or almost the same)analytical results
获得数据集的归约表示，在规模上要小得多，但却产生相同(或几乎相同)的分析结果
10.什么是数据离散化？
Divide the range of a continuous attribute into intervals
将连续属性的范围划分为多个区间
11.将下列缩略语复原
KDD——knowledge discovery in databases
OLAP——on-line analytical processing
OLTP——on-line transaction processing
DM——data mining
DBMS——database management system
DWT——discrete wavelet transform
12．什么是数据挖掘？
Data mining is a process from which we can get hidden, unknown, but potentially useful information and knowledge from a lot of incomplete noisy fuzzy and random practical application data.
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
13．什么是数据仓库？
A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.
数据仓库是面向主题的、集成的、时变的、非易失的数据集合，用于支持管理层的决策过程。
14．数据仓库的主要特征是什么？
面向主题、集成、时变、非易失
15．什么是数据集市？
a subset of corporate-wide data that is of value to a specific groups of users. Its scope is confined to specific, selected groups such as marketing data mart
是企业范围数据的一个子集，对特定用户有用。它的范围限于选定的主题，分为独立的与依赖的
16．如何理解现实世界的数据是“肮脏的”？
所处理的数据是不完整的，含有噪声的，不一致的，被人为修改的；很多潜在的错误数据在数据库中，由设备故障、人为、计算机或输入错误引起的
17．典型的数据挖掘系统有哪几个主要成分？
数据库，数据仓库或其他信息库，数据库或数据仓库服务器，知识库，数据挖掘引擎，模式评估模块，图形用户界面。
18. 形成“脏数据”的原因有哪些？
由设备故障、人为的或计算机错误、或输入错误引起的
19．在数据挖掘系统中，为什么数据清理十分重要？
因为现实世界中的数据是“肮脏的”，存在许多潜在不正确的数据
20．理解分布式函数/代数式函数/整体式函数的概念。
聚集函数分为三类
分布的(distributive)：将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。
count()，sum()，min()，max()等
代数的(algebraic) 函数可以由一个带M个参数的代数函数计算（M为有界整数），而每个参数值都可以由一个分布的聚集函数求得。
avg()，min_N()，standard_deviation()
整体的(holistic)：描述函数的子聚集所需的存储没有一个常数界。
median()，mode()，rank()
21．数据清理时，对空缺值有哪些处理方法？
在空缺值较多时可以忽略整个元素；手工填写缺失值；
自动填补：1.用全局常量填补空缺值；2.用属性的平均值填充；3.使用与给定元组属于同一类的均值；4.基于一些数学算法填充最可能的值
22．数据归约的策略包括哪些？
维归约（删除不重要的维）：小波变换；主成分分析；特征子集选择，特征生成
数值（数据）归约：回归和对数线性模型；直方图，聚类，抽样；数据立方体聚集
数据压缩：
23．掌握最小-最大规范化方法。
在这里插入图片描述
24．从结构角度来看，有哪三种数据仓库模型？
企业仓库；数据集市；虚拟仓库

25．Apriori的原理是什么？
频繁项集的任何子集必须是频繁的
26．与数据挖掘类似的术语有哪些？
Knowledge discovery(mining)in databases(KDD)数据库知识挖掘
Knowledge extraction数据提取
data/pattern analysis数据/模式分析
Data archeology数据考古
data dredging数据捕捞
information harvesting信息收获
business intelligence商业智能
27．关联规则的兴趣度度量有哪两个？
客观兴趣度量、主观兴趣度度量
28．翻译下列术语
Data Mining 数据挖掘
Data warehouse 数据仓库
Data Mart 数据集市
drill-down 下钻
roll-up 上卷
OLAP 联机分析处理
Data cube 数据立方体
Association rule 关联规则
Data cleaning
Data integration
Data transformation
Data reduction
29．三层数据仓库结构中，从底层到尾层分别是什么？
底层：数据仓库服务器
中间层：OLAP服务器
顶层：前端工具
30．常用的四种兴趣度的客观度量。
简单性，确定性，实用性，新颖性
31．四种常用的概念分层类型。
模式分层集合分组分层操作导出的分层基于规则的分层
32．多维数据仓库有哪几种概念模型？
星型模式：一个事实表在中间并连向一系列的维表
雪花模式：星型模式的优化，其中某些维层次是规范化的，因而把数据进一步分解到附加的表当中，结果模式图形成类似雪花的形状
事实星座：多个事实表共享维表，视为一个新的集合，因而成为星系模式或事实星座
33.给出一批数据，能够进行规范化(图一是min-max规范化，图二是z-score规范化，记住两个转换公式即可)。
在这里插入图片描述
*

34.给出初始工作关系（在面向属性的归纳中），能够判断哪些属性需要删除/概化/保留。
35．给出DMQL查询，能够对数据挖掘的原语“对号入座”。
在这里插入图片描述
**
36．给出一批数据，能够度量其中心趋势与离散特征(图一图二分别用来度量中心趋势和离散度)。

37．给出事务数据库和最小支持度、置信度，求所有的频繁项集和它们的支持度，求强关联规则（下图用的apriori算法计算频繁项集，核心就是连接和剪枝，啥时候能连接？对于2项集，只有两个项中有一个相同就可以连接）。
在这里插入图片描述
整理不易，如有帮助希望大家点点赞！

二七的bug杂谈

关注

20
点赞
踩
125

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫