【笔记6-2】数据挖掘：数据预处理

最新推荐文章于 2024-04-04 21:45:30 发布

jessie_weiqing

最新推荐文章于 2024-04-04 21:45:30 发布

阅读量723

点赞数

分类专栏：数据挖掘笔记文章标签：数据预处理数据挖掘 LDA PCA 特诊选择

本文链接：https://blog.csdn.net/cindy_1102/article/details/103119694

版权

笔记同时被 2 个专栏收录

26 篇文章 43 订阅

订阅专栏

数据挖掘

2 篇文章 0 订阅

订阅专栏

【笔记6-2】数据挖掘：数据预处理

（一）数据预处理概述
（二）数据清洗
（三）数据转换
（四）数据描述
（五）特征选择
- 1. 信息熵
- 2. 特征子集搜索
（六）特征提取
- 1. 主成分分析（PCA）
- 2. 线性判别分析（LDA）

清华大学【数据挖掘：数据预处理】
https://www.bilibili.com/video/av38471473

（一）数据预处理概述

算法实际应用的过程中，面对的数据往往是杂乱无章（dirty data）的，比如数据的缺失，噪声数据，数据不匹配，数据冗余，数据集不平衡等。因此，数据预处理的过程包含众多内容，对于后续的分析至关重要。

数据预处理内容：

数据清洗
数据转换
数据描述
特征选择
特征提取

（二）数据清洗

1. 缺失数据处理

缺失数据往往是设备故障，数据未提供或者NA（not applicable）造成的，通常可以分为完全随机缺失，依条件随机缺失，非随机缺失。

缺失值的处理：

丢弃/删除数据
填充数据：重新采集，利用领域知识，固定值填充，均值/中位数填充。

2. 离群点处理

离群点是与整体数据差异较大的点，往往会对回归和聚类的效果产生较大的影响。

离群点的检测（LOF：local outlier factor）：

首先对 $distance_k(O)$ 进行定义，它代表的是距离点 $O$ 最近的 $k$ 个点中，最远的那个点与 $O$ 之间的距离，如下图所示：
在这里插入图片描述
此时点 $A, B$ 之间的 $k$ 近邻距离为两点之间欧式距离与点 $B$ 的 $k$ 近邻距离的最大值，表示如下：？？？
$distance_k(A,B)=max\{distance_k(B),d(A,B)\}$ 然后点 $A$ 的lrd可以表示为： $lrd(A)=1/(\frac{\sum_{B\in N_k(A)}distance_k(A,B)}{|N_k(A)|})$ 其中， $N_k(A)|$ 代表 $A$ 的 $k$ 近邻集合中点的个数。由上式可知，当一个点与近邻距离越小时，对应的lrd的值越大。但是并不能直接说lrd值越大，就越不可能是离群点，而是需要考虑各个点的相对离群程度，于是引入了LOF值。 $LOF_k(A)=\frac{\sum_{B\in N_k(A)}\frac{lrd(B)}{lrd(A)}}{|N_k(A)|}=\frac{\sum_{B\in N_k(A)}lrd(B)}{|N_k(A)|}/lrd(A)$ 由上述 $L O F$ 值的计算方法可知，当一个点的 lrd 值相对于其他点而言越小时，对应的 $L O F$ 值越大，该点则越有可能是离群点。
在这里插入图片描述
比如上图中，圆圈旁边的数值即为 $L O F$ 值， $L O F$ 值越大，该点越可能是离群点。

3. 重复数据检测

由于数据在实际使用过程中，来源不一，可能会产生数据重复，数据冗余的问题，因此需要对重复数据进行去重处理。

但是，在数据量大的情况下，如果对每条数据与其他数据进行逐一进行比较效率会非常低，因此经常采用滑动窗口的方法。滑动窗口即设定一个窗口的大小，每次只对窗口中的数据进行比较，比较之后将窗口在数据集上滑动一个单位以更新窗口中的数据内容。

滑动窗口存在一个问题，当相同数据距离较远，无法涵盖在同一个窗口中时，就无法对这些相同数据进行比较，因此数据的排序要尽量遵循相同或相似数据排列更近的原则。一般会对数据构造一个键值，然后对键值排序，使得相似数据具有相似键值进而被排列到一起。

（三）数据转换

在对数据进行过数据清洗之后，需要进行的数据处理操作依旧有很多，比如对数据类型进行转换，对数据进行归一化，采样等等，这个过程成为数据的转换过程。

1. 类型转换

变量类型：
连续型变量（如温度），离散型变量（如人数），序列型变量（ordinal，如等级），名词型变量（nominal，如职位），字符型变量

2. 采样

目的：数据量过大，需要减少计算量（而统计学中的采样是因为难以获取全量数据）

方法：

过采样：解决样本不平衡的问题（如SMOTE采样）
边界采样：采集边界样本实现模型的高效训练

附：样本不平衡可能造成的问题

样本不平衡时，若模型以准确率为衡量标准，可能会造成分类器仅对结果进行大样本类别的预测，而无法分辨出小样本部分的特征。相应的解决方法有 $G - m e a n, F - s c o r e$ 来作为模型表现的衡量标准。 $G-mean=(Acc^+*Acc^-)^{1/2}$ $\ Acc^+=\frac{TP}{TP+FN},Acc^-=\frac{TN}{TN+FP}$ $F-score=\frac{2*Precision*Recall}{Precision+Recall}$ $\ Precision=\frac{TP}{TP+FP}, Recall=\frac{TP}{TP+FN}$

3. 归一化

为了避免变量数值量纲差异太大，往往需要对变量进行归一化处理，将变量归一化到相近的区间上来。常见的归一化方法有两种：

min-max normalization: $v'=\frac{v-min}{max-min}(new\_max-new\_min)+new\_min$
z-score normalization: $v'=\frac{v-\mu}{\sigma}$

（四）数据描述

常见的数据描述统计量：

均值（mean）
中位数（median）
众数（mode）
方差（variance）
相关系数（correlation coefficient） $r_{A,B}=\frac{\sum(A-\bar A)(B-\bar B)}{(n-1)\sigma_A \sigma_B}$
注意，相关系数为0时，不代表变量之间没有相关性，只能说明两者线性不相关
卡方检验（chi-square test） $\chi=\sum \frac{(Observed-Expected)^2}{Expected}$

（五）特征选择

特征质量判断标准：如果样本在某一特征的区分下呈现出差异较大的分布，则该特征可以被认为是可以区分样本集的较好特征。

比如，抽烟这一特征可以将样本中男女的分布进行很好的区分，因此可以被认定为一个好特征。

将特征选择的过程进行量化，可以通过信息熵来完成。

1. 信息熵

信息熵的定义如下： $H(X)=-\sum_{i=1}^np(x_i)log_bp(x_i)$ 例如，对于不做特征区分的原始样本集中，男女均匀分布，各占0.5，则对应的原始信息熵可以表示为： $H(S)=-0.5log_20.5-0.5log_20.5=1.0$ 信息熵可以理解为事件的不确定性程度。若我们以是否抽烟作为分类依据，则对应的信息熵可以表示为： $X:\{a="Non-smoker"；b="smoker"\}$ $H(S|X=a)=-0.8log_20.8-0.2log_20.2=0.7219$ $H(S|X=b)=-0.05log_20.05-0.95log_20.95=0.2864$ 假设不抽烟的人群占比 0.6，抽烟人群占比 0.4，则包含特征 X 的总体信息熵为： $H (S ∣ X) = 0.6 H (S ∣ X = a) + 0.4 H (S ∣ X = b) = 0.5477$ 最终，由特征 X 带来的信息量（不确定性的减少程度）即 information gain（信息增益）可以表示为： $G a i n (S, X) = H (S) - H (S ∣ X) = 1.0 - 0.5477 = 0.4523$

2. 特征子集搜索

当我们需要从多个特征中选取某几个重要的特征时，如果采用排列组合方法比较所有可能的特征组合，有 $C_n^m$ 种可能，需要进行大量的计算，对于计算资源而言耗费巨大。

分支定界（branch and bound）：

分支界定方法中认为特征集合间遵循特征组合效果（J）的单调性原则，因此在剪枝过程中，可以通过比较父节点与子节点的特征组合的效果来提前进行剪枝，以此减少后续的比较计算。

比如上图中，如果左下角（2,3）对应的组合效果大于右上角（1,3,4,5）的组合效果，那么节点（1,3,4,5）之后的分支都不需要再进行比较。从而有效地节约了时间。

TOP K 特征组合 $J(X_k)=\{J(x_1),J(x_2),...,J(x_k)\},J(x_1)>J(x_2)>...>J(x_k)$ 将各个特征的效果进行排序，然后取效果最好的前k个进行组合（实际上这样的组合并不一定是最优的，因为特征之间可能存在重合）
逐渐扩大特征集 $J(X_k+x_1)>J(X_k+x_2)>...>J(X_k+x_{D-k}),x_i \notin X_k$
逐渐缩小特征集 $J(X_k-x_1)>J(X_k-x_2)>...>J(X_k-x_{k}),x_i \in X_k$
其他优化算法：模拟退火，禁忌搜索，遗传算法等。

（六）特征提取

1. 主成分分析（PCA）

在进行特征提取时，将特征维度上的方差视为该特征所能反映的信息量，方差越大，则认为该特征能反映的信息越多，更能对样本进行区分。
在这里插入图片描述
以一个服从高斯分布的数据集为例，由上图可知，该数据集存在一条主轴（major axis）和一条次轴（minor axis）如前文所述，需要选取能反映更多信息的具有大方差的特征，因此应该选取主轴所对应的特征，即 $X_1$ 。

在这里插入图片描述
而当我们的数据并不呈现出完美的高斯分布时，就需要寻找合适的角度对坐标中心进行平移和旋转，而这个平移和旋转的过程实际上就是移除数据之间的相关性（correlation）的过程。 $S(X)=\frac{1}{n-1}XX^T\xrightarrow[correlation]{remove}S(Y)=\frac{1}{n-1}YY^T$ 也就是说，我们的目标是找到一个 $S (Y)$ 对角线上元素非零，而非对角线上元素全为零。 $\begin{aligned}Y=PX& \rightarrow S(Y)=\frac{1}{n-1}YY^T\\&\rightarrow YY^T=(PX)(PX)^T=PXX^TP^T\end{aligned}$ 由于 $XX^T$ 可以通过特征分解成 $XX^T=QDQ^T$ ，其中 $D$ 为对角阵，因此上式可以进一步表示成 $\begin{aligned} (n-1)S(Y)&=PXX^TP^T\\&=PQDQ^TP^T\\&=(PQ)D(PQ)^T\end{aligned}$ 要使得最终结果同样为对角阵，则意味着 $P Q$ 为单位矩阵，因此 $P=Q^{-1}=Q^T$

也就是说在实际求解过程中，对 $X$ 进行特征分解得到对应的 $Q$ 矩阵之后，再求其转置/逆矩阵即可得到目标矩阵 $P$
在这里插入图片描述
从另外一个角度看，PCA的目标还可以理解为寻找一条新的轴，使得所有数据到该轴的投影距离之和最小，具体过程表示如下： $\begin{aligned} J(e)&=\sum_{t=1}^n||x_k'-x_k||^2=\sum_{t=1}^n||\alpha_ke-x_k||^2\\&=\sum_{t=1}^n\alpha_k^2||e||^2-2\sum_{t=1}^n\alpha_ke^tx_k+\sum_{t=1}^n||x_k||^2\\&=-\sum_{t=1}^n\alpha_k^2+\sum_{t=1}^n||x_k||^2\\&=-\sum_{t=1}^ne^tx_kx_k^te+\sum_{t=1}^n||x_k||^2\end{aligned}$ 令 $S=\sum_{t=1}^nx_kx_k^t$ ，则最小化目标函数可以转换成 $max_e \ e^tSe,s.t. \ ||e||=1$ ，后续可以再采用拉格朗日乘子算法进行求解。 $u=e^tSe-\lambda(e^te-1)\\ \frac{\partial u}{\partial e}=2Se-2\lambda e=0 \\ \rightarrow Se=\lambda e$ 观察上式可知， $\lambda$ 为 $S$ 的特征值，对应的 $e$ 为特征向量，这就意味着 PCA 就是将原始数据投影到 $S$ 的最大的特征值所对应的特征向量的方向上。

2. 线性判别分析（LDA）

PCA 属于无监督学习，无法处理带有标签的分类问题，此时需要考虑LDA。与PCA一样，LDA也是对数据进行降维，但是LDA降维的目的是为了保留样本之间的区分信息。

目标：不同类别之间的距离尽可能远，同类别之间的距离尽可能近。

投影/降维之后的效果衡量标准：Fisher 准则 $J=\frac{|\mu_1 - \mu_2|^2}{S_1^2+S_2^2}$ 分子代表两个投影类别中心的距离，分母则代表投影后类别内的方差/散度，目标是让类内方差小，类间距离大，因此最终目的是让J整体更大。

同样的，这个过程中需要求解的是一个投影方向，求解过程如下：

已知 $\mu_i=\frac{1}{N_i}\sum_{x\in \omega_i}x$ ，对应的变换之后的均值则可以表示为： $\tilde\mu_i=\frac{1}{N_i}\sum_{y\in \omega_i}y=\frac{1}{N_i}\sum_{x\in \omega_i}w^Tx=w^T\mu_i$ 则前述分子的计算可以表示如下：
$(\tilde\mu_1-\tilde\mu_2)^2=(w^T\mu_1-w^T\mu_2)^2=w^T(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw$ 如果用 $S_B=(\mu_1-\mu_2)(\mu_1-\mu_2)^T$ 来表示类间散度，则上式可以改写成： $(\tilde\mu_1-\tilde\mu_2)^2=w^TS_Bw$ 又已知 $S_i=\sum_{x\in w_i}(x-\mu_i)(x-\mu_i)^T$ ，则有： $\begin{aligned}\tilde s_i^2&=\sum_{y\in \omega_i}(y-\tilde\mu_i)^2=\sum_{x\in \omega_i}(w^Tx-w^T\mu_i)^2\\&=\sum_{x\in \omega}w^T(x-\mu_i)(x-\mu_i)^Tw=w^TS_iw\end{aligned}$ 令 $S_1+S_2=S_W$ ，则分母可以改写成 $\tilde s_1^2+\tilde s_2^2=w^TS_Ww$ 因此最终的目标函数为： $J(w)=\frac{|\tilde \mu_1-\tilde \mu_2|^2}{\tilde s_1^2+\tilde s_2^2}\rightarrow J(w)=\frac{w^TS_Bw}{w^TS_Ww}$ 上式得到的最终目标函数又成为广义瑞利熵，求解这一目标函数最直接的方式就是进行求导： $\begin{aligned} &\frac{d}{dw}[J(w)]=\frac{d}{dw}[\frac{w^TS_Bw}{w^TS_Ww}]=0\\ &\Rightarrow [w^TS_Ww]\frac{d[w^TS_Bw]}{dw}-[w^TS_Bw]\frac{d[w^TS_Ww]}{dw}=0\\ &\Rightarrow[w^TS_Ww]2S_Bw-[w^TS_Bw]2S_Ww=0\\&\Rightarrow[\frac{w^TS_Ww}{w^TS_Ww}]S_Bw-[\frac{w^TS_Bw}{w^TS_Ww}]=0\\&\Rightarrow S_Bw-JS_Ww=0\\& \Rightarrow S_W^{-1}S_Bw-Jw=0\\&\Rightarrow S_W^{-1}S_Bw=Jw\end{aligned}$ 观察上式可知，上述问题又可以视为一个特征值，特征向量求解问题：
$\begin{aligned}S_Bw&=(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw=(\mu_1-\mu_2)R \\ R&=(\mu_1-\mu_2)^Tw \\ Jw&=S_W^{-1}(S_Bw)=S_W^{-1}(\mu_1-\mu_2)R \\ w&=\frac{R}{J}S_W^{-1}(\mu_1-\mu_2)\end{aligned}$ 上式中的R和J为标量，不影响向量的求解。因此，最终需要求解的投影方向为： $w^*=argmax_w\{\frac{w^TS_Bw}{w^TS_Ww}\}=S_W^{-1}(\mu_1-\mu_2)$