数据挖掘与分析复习

最新推荐文章于 2024-06-08 07:00:00 发布

WEI_69

最新推荐文章于 2024-06-08 07:00:00 发布

阅读量1.5k

点赞数 6

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_42304949/article/details/103720074

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 数据预处理与分析

掌握数据预处理的主要内容，数据清洗、数据集成、数据变换和数据规约四个内容。
数据中心性、离心性、异常点分析及各种指标的计算方法。
掌握主成分分析方法作用和算法过程。

数据的基本统计描述

中位数，最大值，最小值，分位数，离群值，方差等等（median, max, min, quantiles, outliers, variance, etc.）
- mean，均值（代数意义上的）
- mode，众数，可能有多个众数
- median，中位数
对称的和倾斜的数据：对称，正倾斜（众数小于中位数），负倾斜（众数大于中位数）
分位数，离群值和盒须图
- 分位数（Quartiles）：Q1（25分位数），Q3（75分位数）
- 四分位数间距（inter-quartile range），IQR=Q3-Q1
- 盒须图的五个点：min, Q1, median, Q3, max
方差和标准差
- 有偏估计方差
- 无偏估计方差
可视化
- 盒须图
- 统计直方图
- 分位数图（Quantile Plot），横轴是百分比，纵轴是数值
- Q-Q Plot，比较两组数据是否来自同一分布
- 散点图（Scatter plot）

数据清洗(Data cleaning)

缺失值

忽略
手动
添加为新的类别，比如unknown
用平均值或者中位数来填充
用同一类的样本的均值或者中位数来填充
最有可能的值：贝叶斯形式化方法（Bayesian formula）或者决策树

噪声

分箱，划分成等频率的箱，用箱的均值或者中位数，或者最近边界来平滑数据
回归
聚类：检测并去除离群值
人机合作

不一致性（如何检测？）

用元数据（定义域，值域，分布等）
字段过载(field overloading)，用了其他属性的未使用的部分的位置
检查唯一性规则（每个值都应该不同），连续性规则（最低和最高之间没有确缺失值），空值规则
使用商业工具

数据集成(Data integration)

多源数据的结合：模式集成（schema integration， e.g. nA.cust-id = B.cust-#），个体识别（entity identification，识别有不同名称的相同的个体），检测和解决数据值冲突。

数据集成中的冗余（redundancy）问题

两种冗余：同一个属性或者对象有着不同的名称；可被推导出来的值

可以通过相关分析（correlation analysis）和协方差分析（covariance analysis）进行冗余检测

相关分析： $\chi^2$ 卡方检验
$\chi^2=\sum\frac{(Observed-Expected)^2}{Expected}$

括号中的是它的期望值，比如，90=450*300/(300+1200)，于是
$\chi^2=\frac{(250-90)^2}{90}+\frac{(50-120)^2}{210}+\frac{(200-360)^2}{360}+\frac{(1000-840)^2}{840}$
卡方越大越相关。
相关分析：皮艾森系数（Pearson’s product moment coefficient）
协方差分析：针对数值型数据
协方差：

协相关系数（correlation coefficient:）：

协方差为正，说明A B趋向于一起改变，A大于期望的时候，B也很可能大于它的期望
协方差为负，说明当一个属性小于它的期望，另一个则趋向于比期望更大
协方差为0，说明两者独立，因为 $E (A \cdot B) = E (A) \cdot E (B)$

数据规约(Data reduction)

降低维度（Dimensionality Reduction）

动机：维数灾难，当维度增加，数据变得稀疏，

方法：

小波变换（wavelet transforms）

将一个信号分解为不同频率的子带，保留数据对象之间的相对距离，只保留一小部分小波系数最强的信息，和傅立叶变换类似，但空间局部性更好，有助于保留局部细节

为什么选择小波变换

有效移除离群值，多分辨率（在不同缩放率下都可以检测任意形状的聚类），高效（时间复杂度O(N)），但只适用于低维数据

PCA主成分分析

PCA原理详解

找出k个最能代表数据的n维正交向量（k<=n），也就是找到一个投影能够捕捉到数据中最主要的变换。

先标准化输入数据，使得所有属性都投影到同一区间。
计算K个标准正交向量，这些向量作为规范化输入数据的基，称为主成分。输入- 数据即为主成分的线性组合
对于主成分，按照重要程度或者强度进行排序
去掉排序靠后的，不重要的，方差较小的那些正交向量

属性子集选择（attribute subset selection）

通过删除不相关或者冗余的属性来减少数据量。

启发式搜索（贪心算法），属性的好坏，可以用统计显著性检验来确定

逐步选择：每次从属性集里选出一个最好的属性，添加到目标集合中
逐步删除：每次从属性集中删除一个最差的属性
两者结合：每次都选出一个最好属性，并删除一个最差的

简化数量（Numerosity Reduction）

参数化方法

假设数据会符合某些模型，这样就可以只记录模型参数，忽略数据（x，y表示数值属性）

线性回归：简单直线（y=wx+b）
多元回归：用多个自变量的线性函数对因变量Y进行建模（y=b0+b1x1+b2x2+…+bkxk）
对数线性模型：对于离散属性值，可以用对数线性模型，基于维组合的一个较小子集，估计多维空间中每个点的概率。

非参数化方法

未假设模型的存在

直方图：等宽分割（宽度接近）和等频分割（高度接近）
聚类
采样
1. 无放回简单随机采样
2. 有放回简单随机采样
3. 分层抽样（stratified sampleing）：分割数据集。对倾斜数据比较有效
数据立方聚集

数据压缩（Data Compression）

字符串压缩
音频/视频压缩

数据变换(Data transformation)

光滑
去除数据噪声(分箱，回归，聚类)
属性构造
由已有的属性构造出新属性添加到属性集中
聚集
对数据进行汇总或聚集(聚集日销售数据，计算月和年销售量)
规范化
1. min-max，标准化到[new_min, new_max]
  $v’=\frac{v-min}{max-min}*(new_max-new_min)+new_min$
2. z-score
  $v’=\frac{v-\mu}{\sigma}$
3. 小数定标 decimal scaling
  $v’=\frac{v}{10^j}$ ，其中j是使得v’最大绝对值小于1的最小的整数
离散化
数值属性的原始值(age)用区间标签(0-10,10-30,30-90)或概念标签(yauth,adult,senior)替代
由标称数据泛化到概念分层
1. 通过用户或专家，显式的说明部分或者所有的属性层次序列
2. 通过显示数据分组，说明分层结构的一部分，比如定义{浙江，江苏，福建}属于华东地区
3. 自动根据每个属性的不同值个数产生概念分层

数据分析与挖掘之数据预处理

2 回归方法

掌握线性回归，逻辑斯特回归基本原理。

线性回归广泛用于机器学习中，通过将线性方程拟合到数据来观察两个或更多个变量之间的关系。
线性回归用于对一个或多个对输出变量有影响的自变量进行预测分析。输出必须是连续的并且取决于输入变量。

机器学习----从线性回归到逻辑斯特回归
 机器学习笔记:线性回归、逻辑斯蒂回归推导
 线性回归？逻辑斯蒂回归？不再让你傻傻分不清！1

线性回归

单变量： $h(\theta)=\theta_0+\theta_1x$
单变量： $h(\theta)=\theta_0+\theta_1x.. . ..+\theta_nx_n$

逻辑回归

在这里插入图片描述

3 分类问题

掌握ID3、C4.5、Cart三种决策树原理、算法以及计算过程；
朴素贝叶斯方法的原理以及计算过程；
贝叶斯网络的概念、原理、D-划分的三种单位独立子图，并能根据贝叶斯网络进行推理。
分类算法的提升策略。
分类算法的评估算法。

决策树

初学决策树知乎

决策树的构建算法

自顶向下的递归分治算法

一开始所有训练样本都在根节点上，所有的属性都是有类别的（假如是连续的，需要提前离散化）
基于参数中给定的分裂准则，用选定的属性对样本进行划分，不断迭代
直到满足以下任一条件：
- 给定节点中的所有样本都是同一类的
- 没有剩余的属性可以被用来做进一步分割
- 没有剩余的样本了

决策树构建中的分裂准则

信息增益（Information Gain)
选择具有最高信息增益的属性作为节点N的分裂属性

对D中的元组进行分类所需要的期望信息，也被称为D的熵：
$Info(D)=-\sum p_ilog_2(p_i)$
$p_i$ 是 $D$ 中任意元组属于类 $C_i$ 的概率（非0）
利用某个属性对D进行分区，得到的分区不一定是准确的分类，所以需要计算，要得到准确的分类，我们还需要多少信息：
$Info_A(D)=\sum \frac{|D_j|}{|D|} \times Info(D_j)$
其中 $\frac{|D_j|}{|D|}$ 充当第j个分区的权重。 $Info_A(D)$ 是基于A划分D所需要的期望信息，所需的期望信息越小，分区的纯度越高。
信息增益：
$Gain(A）=Info(D)-Info_A(D)$
选择最高信息增益的属性作为分裂属性，也就是说选择 $Info_A(D)$ 最小。
计算连续值得的信息增益
A的值进行递增序排序，每对相邻的中值作为一个可能的分裂点（ $a_i+a_{i+1})/2$ ），对于A的给定的v个值，则需要计算v-1个可能的划分。
对每个分裂点计算 $Info_A(D)$ ，对每个分裂点，分区个数是2，选出最小期望信息需求的点作为分裂点。

增益率
$\frac{Gain(A)}{splitInfo_A(D)}$
其中，
$splitInfo_A(D)=-\sum \frac{|D_j|}{|D|} \times log_2(\frac{|D_j|}{|D|})$
基尼指数(Gini index)，针对二元分裂
- 基尼指数，度量D的数据分区的不纯度：
  $\sum p_i^2$
- 利用属性A，将D划分为两个分区，从而得到的基尼指数：
  $Gini_A(D)=\frac{|D_1}{|D|}Gini(D_1)+\frac{|D_2}{|D|}Gini(D_2)$
- 基尼指数下降：
  $\Delta Gini(A)=Gini(D)-Gini_A(D)$

过拟合和剪枝

因为噪声跟离群点的关系，有许多分支反映了训练数据中的一场，需要进行剪枝来处理这种过拟合的问题。
先剪枝和后剪枝
先剪枝（prepruning），通过提前停止树的创建来剪枝
后剪枝（postpruning），删除节点的分支而用叶节点代替

大数据库的分类

可伸缩的决策树算法，RainForest：

AVG-set：在每个节点上，对每个属性都维护一个AVC-set。

AVC-group：节点上的所有AVC-set的集合。

ID3
C4.5
CART

贝叶斯

贝叶斯定理

先验概率， $P (H)$ 是H的先验概率
后验概率： $P (H ∣ X)$ 是在条件X下，H的后验概率
贝叶斯定理：
$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$

朴素贝叶斯分类

最大化 $P(C_i|X)$ ：假定一个tuple用一个n维属性向量 $X={x_1,x_2,…x_n}$ 表- 示，且假定有m个类，那么配件单贝叶斯分类法中，预测 $X$ 属于 $C_i$ 的概率为： $P(C_i|X)$ ，只要找到这个最大值对应的 $C_i$ 即可。
最大化 $P(X|C_i)$ ：而根据贝叶斯公式，只要找到 $P(X|C_i)P(C_i)$ 的最大值即可。加入类的先验概率未知，我们通常假设所有类的先验概率一致，于是我们只要找到 $P(X|C_i)$ 的最大值即可
假设 $X$ 的各个属性之间相互独立，不存在依赖关系，那么
$P(X|C_i)=\prod P(x_k|C_i)$

如果属性 $x_k$ 是分类属性，那么概率即为训练集中属性值为 $x_k$ ，且属于 $C_i$ 的tuple在 $C_i$ 中的比例

如果属性是连续值，一般假设属性服从高斯分布。

$P(x_k|C_i)=g(x_k,\mu_{C_i},\sigma_{C_i})$

example

关于0概率：拉普拉斯校准
假设训练集很大，对每个计数都加1，也不会对概率产生太大变化，从而避免0概率

优缺点

优点：容易实现，在大部分情况下结果不错
缺点：基于分类条件独立假设，可以用贝叶斯信任网络来解决这个问题[

贝叶斯网络

贝叶斯网络知乎

在这里插入图片描述
三个事件的联合概率函数为：

该文章含有南海历史内容，该文章是关于南海新闻的可能性有多大？

分类算法的提升策略

装袋（bagging）：对于不同的训练集Di（每个训练集都是一个自助样本）训练的分类模型Mi。为了对一个未知元组X进行分类，每个分类器Mi都会返回它的预测结果，算作投票中的一票，统计最终的票，将最高的得票赋予X。
提升（boosting）：迭代学习。初始所有训练集的元组权重都一致，每一轮迭代，提升上一次测试中出错的元组的权重，降低正确的元组的权重。
随机森林（random forest）
类不平衡数据
过抽样，欠抽样，阈值移动，组合方法。

分类算法的评估算法

混淆矩阵

混淆矩阵：对于给定m个类，混淆矩阵至少是一个mm的表。以下是一个22的混淆矩阵，纵向是实际分类，横向是预测分类。

准确率： $a c c u r a c y = (T P + T N) / (P + N)$
错误率： $error\ rate=(FP+FN)/(P+N)$
有些数据是不平衡的，比如在癌症检测，显然cancer=yes的元组才是我们关注的，于是有了以下两个度量：
灵敏性（正确识别的正元组的比例）： $s e n s i t i v i t y = T P / P$ ，反映了识别正例的能力
特效性（正确识别的负元组的比例）： $s p e c i f i c i t y = T N / N$ ，反映了识别反例的能力
精度（正确识别的正元组在预测为正元组中的比例）： $p r e c i s i o n = (T P) / (T P + F P)$
召回率： $r e c a l l = T P / P$ ，其实也就是灵敏性
$F$ 度量： $\times precision \times recall)/(precision+recall)$
$F_\beta$ 度量： $F_\beta=((1+\beta^2) \times precision \times recall)/(\beta^2 \times precision+recall)$

保持方法和随机二次抽样

保持方法（holdout）：将数据随机的分成训练集跟检验集（通常2/3作为训练集）
随机二次抽样（random subsampling）：将保持方法重复k次，结果取平均值。

交叉验证

k折交叉验证（k-fold cross-validation），将数据随机分成k个相互不相交的子集（折），进行k次训练和检验。其中第i次迭代，用分区i作为检验集而用其余的作为训练集。准确率计算是用k次迭代的总数进行计算。

自助法

在小数据集下比较好。

$. 632$ 自助法：对于给定的包含d个元组的数据集，有放回抽样d次，产生d个样本的自主样本集或训练集，其余作为验证。平均情况下，63.2%的数据会被用于训练。
准确率计算：
$Acc(M)=\sum(0.632 \times Acc(M_i)_{test_set} + 0.368 \times Acc(M_i)_{train_set})$
$Acc(M_i)_{testSet}$ 是对于检验集i的准确率， $Acc(M_i)_{trainSet})$ 是对于源数据的准确率

统计显著性检验

成本效益和ROC曲线

4 频繁项集发现与关联规则挖掘

掌握支持度、置信度定义， Apriori算法，FP-growth算法，并能用算法解决问题；
能挖掘出给定模式的关联规则。

概念

closed pattern：如果不存在X的真超项集Y，使得Y和X在数据集D中有着相同的频度，那么称X为闭的（closed）。
Max-Patterns：如果X是频繁的，且不存在X的超项集Y，并且Y是频繁的。
Max-Patterns==>closed Pattern
Support（支持度）：表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例，那么Support=P(A&B)
Confidence（可信度）：表示使用包含A的事务中同时包含B事务的比例，即同时包含A和B的事务占包含A事务的比例。公式表达：Confidence=P(A&B)/P(A)

$\Rightarrow Diaper)=count(10,20,30) / 5 = 60\%, confidence(Beer \Rightarrow Diaper)=count(10,20,30) / count(10,20,30) = 100\%$
$\Rightarrow Beer)=count(10,20,30) / 5 = 60\%, confidence(Diaper \Rightarrow Beer)=count(10,20,30) / count(10,20,30,50) = 75\%$

Lift（提升度）：表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达：Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。
提升度反映了关联规则中的A与B的相关性，提升度>1且越高表明正相关性越高，提升度<1且越低表明负相关性越高，提升度=1表明没有相关性。
受零事物影响较大。
参考：数据挖掘关联分析中的支持度、置信度和提升度

频繁项集挖掘方法

Apriori算法

在这里插入图片描述

FP-growth算法

构建fp tree：
条件模式基（conditional pattern bases）
寻找条件模式树（conditional FP-tree，类似于寻找最长公共子序列）

5 聚类算法

掌握 K-means，k-modes（众数），k-中心点、PAM方法过程和原理，并能简单分析算法优缺点；
掌握层次聚类、基于概率模型的层次聚类、基于密度聚类算法的基本原理，并能分析算法优缺点。
聚类评估方法中标准互信息熵的计算方法。
在这里插入图片描述

划分方法

将数据划分成k个分区，保证每个分区最少有一个对象；例如k-means，k-medoids，CLARANS
发现球形互斥的簇
对中小规模数据集有效

一种度量簇质量的方法：

$c_i$ 是簇 $C_i$ 的代表（形心）

K-means

在这里插入图片描述

k-modes

k-众数法。

k-中心点

PAM

将簇的形心定义为簇内某个实际的点。

初始选取k个点，每个点代表一个簇的初始均值或中心。
其余点根据欧氏距离，分配给距离最近的簇。
随机选择一个非代表对象Orandom代替Oj，观察绝对误差标准是否降低
如果降低，那么说明应该进行替换，并且重新形成簇
直到不再变化

层次聚类

凝聚或者分裂的方法。层次聚类方法可以是基于距离或者密度和连通性的。
无法纠正错误的合并或划分

概率层次聚类

在这里插入图片描述

密度聚类

主要特点：

可以发现任意形状的簇
能应对噪声
只扫描一遍
需要密度参数作为终止条件

参数和基本概念：

Eps：邻域的最大半径（确定领域大小）
MinPts：邻域最大半径内的最小点数量（确定邻域最大密度）
核心对象（core object）：eps邻域内至少包含MinPts个对象（MinPts由参数给定）
直接密度可达（directly density-reachable）：p在q的eps邻域内，说明p是q直接密度可达的
密度可达的（Density-reachable）：存在对象链p1,…,pn，后一个是前一个直接密度可达的，那么说明pn是p1密度可达的；密度可达并不是一个等价关系，只有当p1,pn都是核心对象时，才一定保证可逆。
密度相连的（Density-connected）：存在p1，p2，q，p1和q以及p2和q都是密度可达的，那么p1和p2是密度相连的。密度相连是等价关系。

DBSCAN

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）
对每个核心对象，将它的所有密度可达的（但未被访问过的）对象添加到自身集合中作为它的簇。
未被添加的点，就是噪声

在这里插入图片描述

基于网格的方法

用网格化的方法把对象空间量化为有限个单元。

优缺点

算法	优点	缺点
K-means	运行效率高，时间复杂度O(nkt),可处理大数据集；	只在连续n维空间中有效，需要提前确定k，对噪声和离群值敏感，无法处理非凸形状的数据
k-modes（众数）	可处理标称数据；	需要用户指定k；
k-中心点	对离群点不敏感	算法复杂度高；O( $n^2$ ) if k=1;通常NP难
PAM	小数据集上运行良好	不能处理大数据集
基于概率层次模型的层次聚类	可解释性好，具有与凝聚层次聚类算法同样的有效性	只输出一个关于选取的概率模型的层次结构，不能处理聚类层次结构的不确定性；不如距离度量灵活；无法纠正错误的合并或划分
基于密度聚类	可以有效地发现任意形状的簇	参数值需由用户指定

聚类评估

NMI(标准化互信息)

聚类结果: C = [1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3];

正确结果 : T= [1 2 1 1 1 1 1 2 2 2 2 3 1 1 3 3 3];

分子p(c,t)为c和t的联合分布概率，

p(1,1)=5/17, p(1,2)=1/17, p(1,3)=0;

p(2,1)=1/17, p(2,2)=4/17, p(2,3)=1/17;

p(3,1)=2/17, p(3,2)=0, p(3,3)=3/17;

对p(t)： p(1)=8/17 p(2)=5/17 P(3)=4/17

在这里插入图片描述

$NMI(X;Y)=\frac{I(X;Y)} {\sqrt{H(X)+H(Y)}}$

6 离群点检测

掌握全局离群点、情境离群点、集体离群点的定义和特点，基于统计模型检测离群点的方法，基于盒图方法检测离群点的方法等。

离群点种类

全局离群点
显著地偏离数据集中的其余对象。
情境离群点
关于对象的特定环境，显著地偏离其他对象。
集体离群点
给定一个数据集，数据对象的一个子集形成集体离群点，如果这些对象作为整体显著地偏离整个数据集。

基于统计模型检测离群点的方法

参数方法

高斯模型
估计该点拟合高斯分布的概率 $g_D(x)$ ,过低则不太可能由高斯模型产生，改点是离群点。
3 $\sigma$ 原则
boxplot
Grubb检验

非参数方法

直方图

题型：

选择，判断对错，简答，算法设计和分析

WEI_69

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与分析复习

文章目录1 数据预处理与分析2 回归方法3 分类问题4 频繁项集发现与关联规则挖掘5 聚类算法6 离群点检测1 数据预处理与分析掌握数据预处理的主要内容，数据清洗、数据集成、数据变换和数据规约四个内容。数据中心性、离心性、异常点分析及各种指标的计算方法。掌握主成分分析方法作用和算法过程。2 回归方法掌握线性回归，逻辑斯特回归基本原理。线性回归广泛用于机器学习中，通过将线性方程...
复制链接

扫一扫

专栏目录