数据挖掘期末考知识点汇总(带答案)

1.知识发现过程包括哪些步骤?
Data cleaning、data integration形成data warehouse,从中选择task-relevant data(任务相关数据)进行data mining,最后pattern evaluation(模式评估)
2.什么是概念分层?
一个概念分层定义了一个映射序列,将低层概念映射到更一般的高层概念。
(为什么提出概念分层?因为有利于数据的汇总,允许我们在各层概念集审查数据)
3.多维数据模型上的OLAP操作包括哪些?
上卷(Roll-up/Drill up):汇总数据,通过维的概念分层向上攀升或者是维归约来汇总数据
下钻(Drill-down/roll down):上卷的逆操作,从高层的汇总到低层汇总,或者是观察更详细的数据,或者是引入一个新的维
切片切块(Slice and Dice):投影和选择
旋转(Pivot/rotate):对立方体的重定位,还有可视化,或者将一个3维的立方体转化为一个二维的平面序列
钻过(drill across):执行涉及多个事实表的查询;
钻透(drill through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表
4.OLAP服务器类型有哪几种?
关系OLAP服务器:使用关系的或者扩展的DBMS来存储和管理数据仓库数据以及OLAP的中间件,包括每个DBMS的后端优化,还有聚集导航的逻辑实现,以及附加的工具和服务,有比较大的可伸缩性
多维OLAP服务器:基于稀疏数组的多维存储引擎,对预计算的汇总数据进行快速处理
混合OLAP服务器:结合关系OLAP服务器和多维OLAP服务器,集成了他们的优点,有更大的灵活性
特殊OLAP服务器:在星型和雪花型模式上支持SQL查询
5.数据预处理技术包括哪些?
Data cleaning数据清洗:填补缺失值,平滑噪声数据,识别或去除异常值,处理不一致
Data integration数据集成:多个数据库、数据集或文件的集成
Data reduction数据归约:降维,降数,数据压缩
Data transformation and data discretization数据变换与离散化:归一化,概念层次生成
6.什么是数据清理?
填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性
7.什么是数据集成?
combines data from multiple sources into a coherent store
将来自多个数据源的数据合并到一个一致的存储中
8.什么是数据变换?
A function that maps the entire set of values of a given attribute to a new set of replacement values s.t. each old value can be identified with one of the new values
通过一个函数进行,将给定数据的整个值集合映射到一组新的替代值上面,使得每一个旧值可以用一个新的值来表示
9.什么是数据归约?
Obtain a reduced representation of the data set that is much smaller in volume but yet produces the same (or almost the same)analytical results
获得数据集的归约表示,在规模上要小得多,但却产生相同(或几乎相同)的分析结果
10.什么是数据离散化?
Divide the range of a continuous attribute into intervals
将连续属性的范围划分为多个区间
11.将下列缩略语复原
KDD——knowledge discovery in databases
OLAP——on-line analytical processing
OLTP——on-line transaction processing
DM——data mining
DBMS——database management system
DWT——discrete wavelet transform
12.什么是数据挖掘?
Data mining is a process from which we can get hidden, unknown, but potentially useful information and knowledge from a lot of incomplete noisy fuzzy and random practical application data.
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
13.什么是数据仓库?
A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.
数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于支持管理层的决策过程。
14.数据仓库的主要特征是什么?
面向主题、集成、时变、非易失
15.什么是数据集市?
a subset of corporate-wide data that is of value to a specific groups of users. Its scope is confined to specific, selected groups such as marketing data mart
是企业范围数据的一个子集,对特定用户有用。它的范围限于选定的主题,分为独立的与依赖的
16.如何理解现实世界的数据是“肮脏的”?
所处理的数据是不完整的,含有噪声的,不一致的,被人为修改的;很多潜在的错误数据在数据库中,由设备故障、人为、计算机或输入错误引起的
17.典型的数据挖掘系统有哪几个主要成分?
数据库,数据仓库或其他信息库,数据库或数据仓库服务器,知识库,数据挖掘引擎,模式评估模块,图形用户界面。
18. 形成“脏数据”的原因有哪些?
由设备故障、人为的或计算机错误、或输入错误引起的
19.在数据挖掘系统中,为什么数据清理十分重要?
因为现实世界中的数据是“肮脏的”,存在许多潜在不正确的数据
20.理解分布式函数/代数式函数/整体式函数的概念。
聚集函数分为三类
分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。
count(),sum(),min(),max()等
代数的(algebraic) 函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以由一个分布的聚集函数求得。
avg(),min_N(),standard_deviation()
整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。
median(),mode(),rank()
21.数据清理时,对空缺值有哪些处理方法?
在空缺值较多时可以忽略整个元素;手工填写缺失值;
自动填补:1.用全局常量填补空缺值;2.用属性的平均值填充;3.使用与给定元组属于同一类的均值;4.基于一些数学算法填充最可能的值
22.数据归约的策略包括哪些?
维归约(删除不重要的维):小波变换;主成分分析;特征子集选择,特征生成
数值(数据)归约:回归和对数线性模型;直方图,聚类,抽样;数据立方体聚集
数据压缩:
23.掌握最小-最大规范化方法。
在这里插入图片描述
24.从结构角度来看,有哪三种数据仓库模型?
企业仓库;数据集市;虚拟仓库
在这里插入图片描述

25.Apriori的原理是什么?
频繁项集的任何子集必须是频繁的
26.与数据挖掘类似的术语有哪些?
Knowledge discovery(mining)in databases(KDD)数据库知识挖掘
Knowledge extraction数据提取
data/pattern analysis数据/模式分析
Data archeology数据考古
data dredging数据捕捞
information harvesting信息收获
business intelligence商业智能
27.关联规则的兴趣度度量有哪两个?
客观兴趣度量、主观兴趣度度量
28.翻译下列术语
Data Mining 数据挖掘
Data warehouse 数据仓库
Data Mart 数据集市
drill-down 下钻
roll-up 上卷
OLAP 联机分析处理
Data cube 数据立方体
Association rule 关联规则
Data cleaning
Data integration
Data transformation
Data reduction
29.三层数据仓库结构中,从底层到尾层分别是什么?
底层:数据仓库服务器
中间层:OLAP服务器
顶层:前端工具
30.常用的四种兴趣度的客观度量。
简单性,确定性,实用性,新颖性
31.四种常用的概念分层类型。
模式分层 集合分组分层 操作导出的分层 基于规则的分层
32.多维数据仓库有哪几种概念模型?
星型模式:一个事实表在中间并连向一系列的维表
雪花模式:星型模式的优化,其中某些维层次是规范化的,因而把数据进一步分解到附加的表当中,结果模式图形成类似雪花的形状
事实星座:多个事实表共享维表,视为一个新的集合,因而成为星系模式或事实星座
33.给出一批数据,能够进行规范化(图一是min-max规范化,图二是z-score规范化,记住两个转换公式即可)。
在这里插入图片描述
*在这里插入图片描述

34.给出初始工作关系(在面向属性的归纳中),能够判断哪些属性需要删除/概化/保留。
35.给出DMQL查询,能够对数据挖掘的原语“对号入座”。
在这里插入图片描述
**
36.给出一批数据,能够度量其中心趋势与离散特征(图一图二分别用来度量中心趋势和离散度)。
在这里插入图片描述
在这里插入图片描述

37.给出事务数据库和最小支持度、置信度,求所有的频繁项集和它们的支持度,求强关联规则(下图用的apriori算法计算频繁项集,核心就是连接和剪枝,啥时候能连接?对于2项集,只有两个项中有一个相同就可以连接)。
在这里插入图片描述
整理不易,如有帮助希望大家点点赞!

  • 20
    点赞
  • 123
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 我为您提供一份数据挖掘期末知识点:1. 数据挖掘基础:数据处理、数据挖掘技术、数据挖掘方法与技术。2. 分类算法:决策树、朴素贝叶斯、K-近邻算法、聚类算法、逻辑斯谛回归算法等。3. 聚类分析:层次聚类、K-means聚类、EM聚类等。4. 数据挖掘工具:Weka、R、Python等。5. 学习理论:梯度下降法、最小二乘法、贝叶斯学习、EM算法等。 ### 回答2: 数据挖掘期末知识点主要包括以下几个方面: 1. 数据预处理:数据清洗、数据集成、数据转换和数据规约等。包括处理缺失值、异常值、重复值等数据处理方法。 2. 数据挖掘任务:分类、聚类、关联规则挖掘和预测等。了解每种任务的基本概念、方法和应用场景。 3. 数据挖掘算法:了解常见的数据挖掘算法,如决策树、朴素贝叶斯、支持向量机、神经网络、K均值聚类、Apriori算法等。 4. 模型评估与选择:了解不同模型评估指标,如准确率、召回率、F1值、混淆矩阵等,以及在不同场景下如何选择最合适的模型。 5. 特征选择与降维:了解特征选择的方法和意义,如过滤法、包装法和嵌入法,以及常见的降维方法,如主成分分析和线性判别分析。 6. 数据可视化:了解常见的数据可视化方法,如散点图、折线图、柱状图、热力图等,以及如何通过可视化来展示和分析数据。 7. 应用案例与实践:了解数据挖掘在不同领域的应用案例,如电子商务、社交网络、金融等,以及如何通过实践来应用所学的数据挖掘技术。 在复习过程中,可以通过做一些练习题和实验来加深对知识点的理解,并且多查阅相关的学术文献和教材,加强对数据挖掘的基本理论和方法的掌握。 ### 回答3: 数据挖掘是一门研究如何从大规模数据中提取出有用信息和知识的学科。其主要应用于商业分析、社会网络分析、医疗保健、推荐系统等领域。以下是数据挖掘期末试的一些知识点: 1. 数据预处理:了解数据预处理的目的和常用方法,如数据清洗、数据集成、数据转换和数据归约。 2. 数据挖掘任务:熟悉数据挖掘中的分类、聚类、关联规则挖掘、异常检测等常用任务,以及它们的应用场景和算法模型。 3. 数据挖掘算法:了解常见的数据挖掘算法,如决策树、神经网络、支持向量机、聚类算法(K-means、层次聚类等)等。 4. 特征选择与降维:了解特征选择和降维的目的和常用方法,如信息增益、卡方检验、主成分分析、因子分析等。 5. 评价指标:了解如何评价数据挖掘结果的质量,如准确率、召回率、精确率等指标,以及交叉验证、ROC曲线等评价方法。 6. 数据可视化:了解如何使用数据可视化技术来展示数据挖掘结果,提高可理解性和可视化效果,如散点图、柱状图、热力图等。 7. 数据隐私与安全:了解数据挖掘过程中的隐私和安全问题,如隐私保护技术、推荐系统的利用隐私信息等。 8. 实际案例分析:通过实际案例或项目来分析和解决实际数据挖掘问题,在实践中运用所学的数据挖掘知识。 这些知识点覆盖了数据挖掘的基础概念、常用方法和应用技术,希望能够帮助你在期末试中取得好成绩。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值