数据挖掘期末考知识点汇总(带答案)

文章介绍了知识发现的过程,包括数据清理、集成、挖掘和模式评估。讨论了概念分层在数据汇总中的作用,多维数据模型上的OLAP操作如上卷、下钻、切片切块等。还涵盖了数据预处理技术,如数据清洗、集成、归约和变换。此外,提到了数据仓库和数据集市的特点,以及数据挖掘的核心概念和关联规则的度量。
摘要由CSDN通过智能技术生成

1.知识发现过程包括哪些步骤?
Data cleaning、data integration形成data warehouse,从中选择task-relevant data(任务相关数据)进行data mining,最后pattern evaluation(模式评估)
2.什么是概念分层?
一个概念分层定义了一个映射序列,将低层概念映射到更一般的高层概念。
(为什么提出概念分层?因为有利于数据的汇总,允许我们在各层概念集审查数据)
3.多维数据模型上的OLAP操作包括哪些?
上卷(Roll-up/Drill up):汇总数据,通过维的概念分层向上攀升或者是维归约来汇总数据
下钻(Drill-down/roll down):上卷的逆操作,从高层的汇总到低层汇总,或者是观察更详细的数据,或者是引入一个新的维
切片切块(Slice and Dice):投影和选择
旋转(Pivot/rotate):对立方体的重定位,还有可视化,或者将一个3维的立方体转化为一个二维的平面序列
钻过(drill across):执行涉及多个事实表的查询;
钻透(drill through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表
4.OLAP服务器类型有哪几种?
关系OLAP服务器:使用关系的或者扩展的DBMS来存储和管理数据仓库数据以及OLAP的中间件,包括每个DBMS的后端优化,还有聚集导航的逻辑实现,以及附加的工具和服务,有比较大的可伸缩性
多维OLAP服务器:基于稀疏数组的多维存储引擎,对预计算的汇总数据进行快速处理
混合OLAP服务器:结合关系OLAP服务器和多维OLAP服务器,集成了他们的优点,有更大的灵活性
特殊OLAP服务器:在星型和雪花型模式上支持SQL查询
5.数据预处理技术包括哪些?
Data cleaning数据清洗:填补缺失值,平滑噪声数据,识别或去除异常值,处理不一致
Data integration数据集成:多个数据库、数据集或文件的集成
Data reduction数据归约:降维,降数,数据压缩
Data transformation and data discretization数据变换与离散化:归一化,概念层次生成
6.什么是数据清理?
填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性
7.什么是数据集成?
combines data from multiple sources into a coherent store
将来自多个数据源的数据合并到一个一致的存储中
8.什么是数据变换?
A function that maps the entire set of values of a given attribute to a new set of replacement values s.t. each old value can be identified with one of the new values
通过一个函数进行,将给定数据的整个值集合映射到一组新的替代值上面,使得每一个旧值可以用一个新的值来表示
9.什么是数据归约?
Obtain a reduced representation of the data set that is much smaller in volume but yet produces the same (or almost the same)analytical results
获得数据集的归约表示,在规模上要小得多,但却产生相同(或几乎相同)的分析结果
10.什么是数据离散化?
Divide the range of a continuous attribute into intervals
将连续属性的范围划分为多个区间
11.将下列缩略语复原
KDD——knowledge discovery in databases
OLAP——on-line analytical processing
OLTP——on-line transaction processing
DM——data mining
DBMS——database management system
DWT——discrete wavelet transform
12.什么是数据挖掘?
Data mining is a process from which we can get hidden, unknown, but potentially useful information and knowledge from a lot of incomplete noisy fuzzy and random practical application data.
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
13.什么是数据仓库?
A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.
数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于支持管理层的决策过程。
14.数据仓库的主要特征是什么?
面向主题、集成、时变、非易失
15.什么是数据集市?
a subset of corporate-wide data that is of value to a specific groups of users. Its scope is confined to specific, selected groups such as marketing data mart
是企业范围数据的一个子集,对特定用户有用。它的范围限于选定的主题,分为独立的与依赖的
16.如何理解现实世界的数据是“肮脏的”?
所处理的数据是不完整的,含有噪声的,不一致的,被人为修改的;很多潜在的错误数据在数据库中,由设备故障、人为、计算机或输入错误引起的
17.典型的数据挖掘系统有哪几个主要成分?
数据库,数据仓库或其他信息库,数据库或数据仓库服务器,知识库,数据挖掘引擎,模式评估模块,图形用户界面。
18. 形成“脏数据”的原因有哪些?
由设备故障、人为的或计算机错误、或输入错误引起的
19.在数据挖掘系统中,为什么数据清理十分重要?
因为现实世界中的数据是“肮脏的”,存在许多潜在不正确的数据
20.理解分布式函数/代数式函数/整体式函数的概念。
聚集函数分为三类
分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。
count(),sum(),min(),max()等
代数的(algebraic) 函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以由一个分布的聚集函数求得。
avg(),min_N(),standard_deviation()
整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。
median(),mode(),rank()
21.数据清理时,对空缺值有哪些处理方法?
在空缺值较多时可以忽略整个元素;手工填写缺失值;
自动填补:1.用全局常量填补空缺值;2.用属性的平均值填充;3.使用与给定元组属于同一类的均值;4.基于一些数学算法填充最可能的值
22.数据归约的策略包括哪些?
维归约(删除不重要的维):小波变换;主成分分析;特征子集选择,特征生成
数值(数据)归约:回归和对数线性模型;直方图,聚类,抽样;数据立方体聚集
数据压缩:
23.掌握最小-最大规范化方法。
在这里插入图片描述
24.从结构角度来看,有哪三种数据仓库模型?
企业仓库;数据集市;虚拟仓库
在这里插入图片描述

25.Apriori的原理是什么?
频繁项集的任何子集必须是频繁的
26.与数据挖掘类似的术语有哪些?
Knowledge discovery(mining)in databases(KDD)数据库知识挖掘
Knowledge extraction数据提取
data/pattern analysis数据/模式分析
Data archeology数据考古
data dredging数据捕捞
information harvesting信息收获
business intelligence商业智能
27.关联规则的兴趣度度量有哪两个?
客观兴趣度量、主观兴趣度度量
28.翻译下列术语
Data Mining 数据挖掘
Data warehouse 数据仓库
Data Mart 数据集市
drill-down 下钻
roll-up 上卷
OLAP 联机分析处理
Data cube 数据立方体
Association rule 关联规则
Data cleaning
Data integration
Data transformation
Data reduction
29.三层数据仓库结构中,从底层到尾层分别是什么?
底层:数据仓库服务器
中间层:OLAP服务器
顶层:前端工具
30.常用的四种兴趣度的客观度量。
简单性,确定性,实用性,新颖性
31.四种常用的概念分层类型。
模式分层 集合分组分层 操作导出的分层 基于规则的分层
32.多维数据仓库有哪几种概念模型?
星型模式:一个事实表在中间并连向一系列的维表
雪花模式:星型模式的优化,其中某些维层次是规范化的,因而把数据进一步分解到附加的表当中,结果模式图形成类似雪花的形状
事实星座:多个事实表共享维表,视为一个新的集合,因而成为星系模式或事实星座
33.给出一批数据,能够进行规范化(图一是min-max规范化,图二是z-score规范化,记住两个转换公式即可)。
在这里插入图片描述
*在这里插入图片描述

34.给出初始工作关系(在面向属性的归纳中),能够判断哪些属性需要删除/概化/保留。
35.给出DMQL查询,能够对数据挖掘的原语“对号入座”。
在这里插入图片描述
**
36.给出一批数据,能够度量其中心趋势与离散特征(图一图二分别用来度量中心趋势和离散度)。
在这里插入图片描述
在这里插入图片描述

37.给出事务数据库和最小支持度、置信度,求所有的频繁项集和它们的支持度,求强关联规则(下图用的apriori算法计算频繁项集,核心就是连接和剪枝,啥时候能连接?对于2项集,只有两个项中有一个相同就可以连接)。
在这里插入图片描述
整理不易,如有帮助希望大家点点赞!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值