数据挖掘概念与技术期末复习

填空、简答3-5、计算2、应用1

聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的相关概念

简答:

数据仓库和操作数据库的区别

大题:

  • 盒图的绘制

  • 数据仓库建模

  • 相关性分析的方法

  • 使用AprioryFp算法挖掘频繁项集

  • 使用朴素贝叶斯方法和神经网络算法进行分类预测

U1

  • 1.2概念

  • 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

  • 是知识发现(最重要)的一个步骤

  • 知识发现的步骤

  • 数据清理-数据集成-数据选择-数据变换-数据挖掘-模式评估-知识表示

U2

中心趋势度量:均值、中位数、众数

近似中位数计算

中列数:max和min的均值

  • 四分位数极差IQR=Q3-Q1

  • 可疑的离群点:落在Q3之上或Q1之下1.5倍IQR以外的值

五数概括:按次序:Min,Q1,Median,Q3,Max

  • 数据集由数据对象组成。数据对象代表实体。

  • 数据对象用属性描述。属性表示数据对象的一个特征。

数据是( 数据对象及其属性的集合),属性分为(标称、序数、数值属性 )。

属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数

的或数值的。

  • 标称属性:标称代表“与名称相关”,其值是一些符号或事物的名称。

  • 二元属性:一种标称属性,只有两个状态:0或1。

  • 序数属性:其值之间具有有意义的序或者秩评定,相继值之间的差是未知的。

  • 数值属性:可测量的量,用整数或实数的值表示。数值属性可以是区间标度的或比率标度的。

U3

  • 数据质量:准确性,完整性,时效性,可信性,可解释性

  • 噪声:被测量变量的随机误差或方差

  • 离群点显著不同于其他数据对象,好像它是被不同的机制产生的一样。

  • 噪声在数据分析中不是有趣的。而离群点是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制。

  • 数据预处理的主要步骤:数据清理,集成,归约和变换

  • 数据归约:得到数据的规约表示,使信息损失最小化

  • 数据集的归约表示小得多,但仍接近于保持原始数据的完整性。在归约后的数据集上挖掘将更有效。

  • 数据归约策略包括维归约、数量归约和数据压缩

  • 相关分析

  • 有些冗余可以被相关分析检测到。

  • 对于标称数据:卡方(χ2)检验

  • 对于数值属性:使用相关系数或协方差(Cov)检验

U4

到4.1.3

4.2.2等

  • 数据仓库:面向主题的、集成的、时变的、非易失的 有组织的数据集合

  • 三层体系结构。

  • 底层是数据仓库服务器,它通常是关系数据库系统。

  • 中间层是OLAP服务器

  • 顶层是客户,包括查询和报表工具。

  • 由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。

  • 数据仓库模型

  • 企业仓库:搜集了关于主题的所有信息,跨越整个企业。

  • 数据集市:包含企业数据的一个子集,针对特定用户群。

  • 虚拟仓库:操作数据库上视图的集合。

  • 操作数据库系统与数据仓库的区别

  • 操作数据库系统

  • 联机事务(OLTP):面向顾客,专业人员;管理当前数据;用于日常操作;采用E-R模型,面向应用的数据库设计;访问需要读写。

  • 数据仓库

  • 联机分析(OLAP):面向市场,知识工人;管理历史数据;用于决策支持;采用星型/雪花模型,面向主题的数据库设计;访问为只读操作。

  • 通常,多维数据模型采用星形模式、雪花模式、事实星座模式

  • 星型模式的优点是简单,可以提高效率,但需要更多空间。

  • 雪花模式中的某些维表已被规范化,从而将数据进一步拆分为其他表。

  • 雪花模式通过共享公用表来减少一些冗余,这些表易于维护并节省一些空间。

  • 多维数据模型的核心是数据立方体

  • 数据立方体由事实(或度量)和维组成。

  • 维是一个组织想要记录的透视或实体。

  • 联机分析处理(OLAP)可以在使用多维数据模型的数据仓库上进行。

  • 典型的OLAP操作包括上卷、下钻、切片和切块、转轴以及统计操作。

  • 度量的三种类型:分布的,代数的和整体的。

U6

  • 关联规则

  • 支持度s(upport):s(A=>B)=P(A∪B)

  • 置信度c(onfidence):c(A=>B)=P(B|A)=P(A∪B)/P(A)

  • 提升度lift(A,B)=P(A∪B)/P(A)P(B)

  • >1,则A和B是相关的

  • <1,则A与B是负相关的

  • =1,则A和B是独立的,没有相关性

  • 频繁模式:频繁地出现在数据集中的模式(如项集、子序列或子结构)。

  • 频繁模式挖掘给定数据集中反复出现的联系

  • 频繁项集

  • 项的集合称为项集,k个项的集合称为k项集

  • 如果项集I的相对支持度满足最小支持度阈值,则I是频繁项集

  • 关联规则

  • 形如的A=>B的蕴含式,存在支持度和置信度。

  • 挖据:首先找出频繁项集,然后由它们产生强关联规则

  • 同时满足最小支持度阈值(min_s)和最小置信度阈值(min_c)的规则称为强规则

算法

  • Apriori算法

  • Cn为候选集,Ln为频繁项集

  • C3开始剪枝

  • FP-growth算法

  • 扫描项,删除小于min_s c的,降序排列出F-list

  • 每行按F-list写出新表,有重复项的去除

  • 按新表画FP树

  • 倒叙写项(首项不写),条件模式基,条件FP树,频繁项集(项+条件FP组合)

  • 效率比较

  • Apriori算法需要进行多次扫描,而FP算法只需要扫描两次。

  • Apriori算法会产生候选项集,计算代价很高;FP算法就不存在这个问题。所以FP算法效率更高。

U8

朴素贝叶斯分类法

  • 假设:属性值之间是相互独立的,即类条件独立性

  • 作此假设为了简化计算,称为“朴素的”

  • 主要思想:通过后概率的贝叶斯定理使用P(X|C_i)P(C_i)得到最大值来对数据进行分类。

U9

9.2后向传播神经网络算法

9.3概念

  • SVM算法

支持向量机(SVM)是一种用于线性和非线性数据的分类算法。

它把源数据映射到较高维空间,使用“支持向量”的基本元组和“边缘”,发现分离数据的超平面

U10

概念

  • 聚类

  • 聚类分析简称聚类,是把数据对象划分成子集的过程。每个子集是一个簇,簇中的对象彼此相似,但与其他簇中的对象不相似。

  • 聚类有时又称自动分类。聚类可以自动地发现这些分组,这是聚类分析的突出优点。

  • 聚类又称做数据分割,因为它根据数据的相似性把大型数据集合划分成组。聚类还可以用于离群点检测。

  • 聚类属于无监督学习,因为没有提供类标号信息。聚类通过观察学习。

  • 基于密度聚类:DBSCAN算法

  • 它根据邻域中对象的密度来生成簇

  • 算法

  • 每个对象点依次为圆心,£用来指定邻域半径。

  • 指定一个MinPts,若一个点的邻域内其他点的数量超过MinPts则称为核心点

  • 落在核心点邻域内的其他点称为边界点

  • 除了核心点和边界点剩下的是噪声点

  • 将邻域半径内的核心点及其边界点聚成同一个簇

  • DBSCAN中,密度相连是等价关系

  • 对于对象01、02和03,如果01、02是密度相连的,并且02、03是密度相连的,则01、03也是密度相连的。


公式、习题(算法大题)手写pdf:

链接:https://pan.baidu.com/s/14rHjOaSE-ljhfzW3EXTyhw

提取码:druk

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 《数据挖掘概念技术》是一本经典的数据挖掘教材,第三版更新了很多新的内容和技术。本书总共分为十三个章节,涵盖了数据挖掘的基础知识、预处理、分类、聚类、异常检测、关联规则挖掘、Web挖掘、文本挖掘、时间序列挖掘、空间数据挖掘、图形挖掘等多个方面。每个章节都包含了实例、案例和应用,让读者能够更好地理解和应用数据挖掘技术。 第三版中还加入了一些新的技术和应用,如深度学习、大数据挖掘、基于图的分析等。此外,本书还强调了模型评估和选择的重要性,给出了更多的评估方法和工具。 总之,《数据挖掘概念技术》第三版是一本全面而深入的数据挖掘教材,对于想要深入学习和应用数据挖掘技术的读者来说,是一本不可错过的好书。 ### 回答2: 《数据挖掘概念技术第三版pdf》是一本涵盖数据挖掘的基本概念技术和应用的重要学术著作。这本书是作者Jiawei Han、Micheline Kamber和Jian Pei三位知名学者在数据挖掘领域的大量研究基础上所编写而成的。 在这本书中,作者首先介绍了数据挖掘概念、意义以及数据挖掘技术的基本体系结构。接着,他们详细介绍了包括分类、聚类、关联规则挖掘等在内的数据挖掘技术,以及常用的数据挖掘算法和方法。另外,他们还特别介绍了文本挖掘和社交网络分析等领域的数据挖掘技术。 此外,该书还介绍了数据仓库和OLAP以及数据挖掘的应用等方面的知识。此外,书中还涉及了与数据挖掘紧密相关的数据预处理和特征选择以及评价指标等内容。 总之,《数据挖掘概念技术第三版pdf》是数据挖掘领域的权威参考书,对于很多大数据处理专业学习者和从业者来说都是一本必备的教材。无论是在学术研究上,还是在实际应用场景下,该书的知识都能够为读者提供很大的帮助。 ### 回答3: 《数据挖掘概念技术第三版pdf》是一本关于数据挖掘的经典教材,该书由三位著名的数据挖掘专家Jiawei Han、Micheline Kamber和Jian Pei合作编写。书中介绍了数据挖掘的基本概念、方法和技术,包括数据预处理、聚类分析、分类分析、关联规则挖掘等。 在数据挖掘的实践中,数据预处理是一个关键的环节,也是决定分析结果质量的一个关键因素。该书中首先详细介绍了数据预处理的各个流程,如数据清洗、数据集成、数据转换和数据规约。 除此之外,该书还详细讲解了聚类、分类、关联规则挖掘等分析方法的原理、特点和应用。在聚类分析中,书中介绍了基于距离的聚类和基于密度的聚类;在分类分析中,介绍了朴素贝叶斯分类器、决策树分类器和神经网络分类器等方法;在关联规则挖掘中,介绍了Apriori算法、FP-growth算法等经典算法。 该书内容丰富、深入浅出,适合数据挖掘初学者和从业者阅读。此外,附带的数据集和程序代码也方便读者进行实践操作,更好地理解书中的理论知识。总之,《数据挖掘概念技术第三版pdf》是一本非常实用的数据挖掘教材,值得推荐。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值