数据挖掘概念与技术期末复习

Blancness

于 2023-03-01 16:07:30 发布

阅读量454

点赞数

文章标签：数据挖掘机器学习算法 Powered by 金山文档

本文链接：https://blog.csdn.net/Blancness/article/details/129283572

版权

填空、简答3-5、计算2、应用1

聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的相关概念。

简答：

数据仓库和操作数据库的区别

大题：

盒图的绘制

数据仓库建模

相关性分析的方法

使用Apriory和Fp算法挖掘频繁项集

使用朴素贝叶斯方法和神经网络算法进行分类预测

U1

1.2概念

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

是知识发现（最重要）的一个步骤

知识发现的步骤

数据清理-数据集成-数据选择-数据变换-数据挖掘-模式评估-知识表示

U2

中心趋势度量：均值、中位数、众数

近似中位数计算

中列数：max和min的均值

四分位数极差IQR=Q3-Q1

可疑的离群点：落在Q3之上或Q1之下1.5倍IQR以外的值

五数概括：按次序：Min,Q1,Median,Q3,Max

数据集由数据对象组成。数据对象代表实体。

数据对象用属性描述。属性表示数据对象的一个特征。

数据是（数据对象及其属性的集合），属性分为（标称、序数、数值属性）。

属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数

的或数值的。

标称属性：标称代表“与名称相关”，其值是一些符号或事物的名称。

二元属性：一种标称属性，只有两个状态：0或1。

序数属性：其值之间具有有意义的序或者秩评定，相继值之间的差是未知的。

数值属性：可测量的量，用整数或实数的值表示。数值属性可以是区间标度的或比率标度的。

U3

数据质量：准确性，完整性，时效性，可信性，可解释性

噪声：被测量变量的随机误差或方差

离群点显著不同于其他数据对象，好像它是被不同的机制产生的一样。

噪声在数据分析中不是有趣的。而离群点是有趣的，因为怀疑产生它们的机制不同于产生其他数据的机制。

数据预处理的主要步骤：数据清理，集成，归约和变换。

数据归约：得到数据的规约表示，使信息损失最小化。

数据集的归约表示小得多，但仍接近于保持原始数据的完整性。在归约后的数据集上挖掘将更有效。

数据归约策略包括维归约、数量归约和数据压缩。

相关分析

有些冗余可以被相关分析检测到。

对于标称数据：卡方（χ2）检验

对于数值属性：使用相关系数或协方差（Cov)检验

U4

到4.1.3

4.2.2等

数据仓库：面向主题的、集成的、时变的、非易失的有组织的数据集合

三层体系结构。

底层是数据仓库服务器，它通常是关系数据库系统。

中间层是OLAP服务器

顶层是客户，包括查询和报表工具。

由于两种系统提供很不相同的功能，需要不同类型的数据，因此有必要将数据仓库与操作数据库分开维护。

数据仓库模型

企业仓库：搜集了关于主题的所有信息，跨越整个企业。

数据集市：包含企业数据的一个子集，针对特定用户群。

虚拟仓库：操作数据库上视图的集合。

操作数据库系统与数据仓库的区别

操作数据库系统

联机事务（OLTP）：面向顾客，专业人员；管理当前数据；用于日常操作；采用E-R模型，面向应用的数据库设计；访问需要读写。

数据仓库

联机分析（OLAP）：面向市场，知识工人；管理历史数据；用于决策支持；采用星型/雪花模型，面向主题的数据库设计；访问为只读操作。

通常，多维数据模型采用星形模式、雪花模式、事实星座模式。

星型模式的优点是简单，可以提高效率，但需要更多空间。

雪花模式中的某些维表已被规范化，从而将数据进一步拆分为其他表。

雪花模式通过共享公用表来减少一些冗余，这些表易于维护并节省一些空间。

多维数据模型的核心是数据立方体。

数据立方体由事实（或度量）和维组成。

维是一个组织想要记录的透视或实体。

联机分析处理（OLAP）可以在使用多维数据模型的数据仓库上进行。

典型的OLAP操作包括上卷、下钻、切片和切块、转轴以及统计操作。

度量的三种类型：分布的，代数的和整体的。

U6

关联规则

支持度s(upport):s(A=>B)=P(A∪B)

置信度c(onfidence):c(A=>B)=P(B|A)=P(A∪B)/P(A)

提升度lift(A,B)=P(A∪B)/P(A)P(B)

>1，则A和B是正相关的

<1，则A与B是负相关的

=1，则A和B是独立的，没有相关性

频繁模式：频繁地出现在数据集中的模式（如项集、子序列或子结构）。

频繁模式挖掘给定数据集中反复出现的联系。

频繁项集

项的集合称为项集，k个项的集合称为k项集

如果项集I的相对支持度满足最小支持度阈值，则I是频繁项集

关联规则

形如的A=>B的蕴含式，存在支持度和置信度。

挖据：首先找出频繁项集，然后由它们产生强关联规则

同时满足最小支持度阈值(min_s)和最小置信度阈值(min_c)的规则称为强规则

算法

Apriori算法

Cn为候选集，Ln为频繁项集

C3开始剪枝

FP-growth算法

扫描项，删除小于min_s c的，降序排列出F-list

每行按F-list写出新表，有重复项的去除

按新表画FP树

倒叙写项（首项不写），条件模式基，条件FP树，频繁项集（项+条件FP组合）

效率比较

Apriori算法需要进行多次扫描，而FP算法只需要扫描两次。

Apriori算法会产生候选项集，计算代价很高；FP算法就不存在这个问题。所以FP算法效率更高。

U8

朴素贝叶斯分类法

假设：属性值之间是相互独立的，即类条件独立性

作此假设为了简化计算，称为“朴素的”

主要思想：通过后概率的贝叶斯定理使用P（X|C_i）P（C_i）得到最大值来对数据进行分类。

U9

9.2后向传播神经网络算法

9.3概念

SVM算法

支持向量机（SVM）是一种用于线性和非线性数据的分类算法。

它把源数据映射到较高维空间，使用“支持向量”的基本元组和“边缘”，发现分离数据的超平面。

U10

概念

聚类

聚类分析简称聚类，是把数据对象划分成子集的过程。每个子集是一个簇,簇中的对象彼此相似，但与其他簇中的对象不相似。

聚类有时又称自动分类。聚类可以自动地发现这些分组，这是聚类分析的突出优点。

聚类又称做数据分割，因为它根据数据的相似性把大型数据集合划分成组。聚类还可以用于离群点检测。

聚类属于无监督学习,因为没有提供类标号信息。聚类通过观察学习。

基于密度聚类：DBSCAN算法

它根据邻域中对象的密度来生成簇

算法：

每个对象点依次为圆心，£用来指定邻域半径。

指定一个MinPts，若一个点的邻域内其他点的数量超过MinPts则称为核心点

落在核心点邻域内的其他点称为边界点

除了核心点和边界点剩下的是噪声点

将邻域半径内的核心点及其边界点聚成同一个簇

DBSCAN中，密度相连是等价关系。

对于对象01、02和03，如果01、02是密度相连的，并且02、03是密度相连的，则01、03也是密度相连的。

公式、习题（算法大题）手写pdf:

链接：https://pan.baidu.com/s/14rHjOaSE-ljhfzW3EXTyhw

提取码：druk

Blancness

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘概念与技术期末复习

聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的。对于对象01、02和03，如果01、02是密度相连的，并且02、03是密度相连的，则01、03也是密度相连的。所以FP算法效率更高。而离群点是有趣的，因为怀疑产生它们的机制不同于产生其他数据的机制。数据是（数据对象及其属性的集合），属性分为（标称、序数、数值属性）。属性的类型由该属性可能具有的值的集合决定。属性：其值之间具有有意义的序或者秩评定，相继值之间的差是未知的。
复制链接

扫一扫