1. 数据降维
降维是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
降维具有如下一些优点:
- 使得数据集更易使用。
- 降低算法的计算开销。
- 去除噪声。
- 使得结果容易理解。
降维的算法有很多,比如主成分分析(PCA)、奇异值分解(SVD)、因子分析(FA)、独立成分分析(ICA)。 本篇文章我们主要介绍第一种降维算法。
2. 主成分分析(Principal Component Analysis)原理讲解
- PCA是一种常用的降维算法,主要思想是将 n n n维特征映射到 K K K维上,这 K K K维是全新的正交特征也被称为主成分,是在原有 n n n维特征的基础上重新构造出来的 K K K维特征。即通过线性组合的方法将多个特征综合为少数特征,且综合后的 K K K维特征相互独立,又可以表示原始特征的大部分信息。
- 通常来说,主成分可显示出样本在某个特征上的最大差异,这种差异的大小可以使用方差来表示。
思考:我们如何得到这些包含最大差异性的主成分方向呢?
解答:通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的 K K K个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
2.1 能让样本点方差最大的直线称为主方向。
为了使样本点在主方向上分散得最开,即在主方向上方差最大,一般需要对样本进行中心化,即样本点的每一个维度上的值减去所有样本点在这个维度上的值的总和的平均值。
2.2 降维问题的优化目标
将一组N维向量 K K K维,其目标是选择 K K K个单位正交基,使得原始数据变换到这组基上后,各维度两两间的协方差为0,而每个维度的方差则尽可能大(在正交的约束下,取最大的R个方差)。
那么我们要怎么去完成这个优化目标呢?这里就需要引出协方差矩阵了。
2.3 方差与协方差
- 样本均值:
x ˉ = 1 n ∑ i = 1 N x i \bar{x}=\frac{1}{n} \sum_{i=1}^{N} x_{i} xˉ=n1i=1∑Nxi
- 样本X和样本Y的协方差:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} S2=n−11i=1∑n(xi−xˉ)2
由上面的公式,我们可以得到以下结论:
(1) 方差的计算公式是针对一维特征,即针对同一特征不同样本的取值来进行计算得到;而协方差则必须要求至少满足二维特征;方差是协方差的特殊情况。
(2) 方差和协方差的除数是 n − 1 n-1 n−1,这是为了得到方差和协方差的无偏估计。
协方差为正时,说明 X X X和 Y Y Y是正相关关系;协方差为负时,说明 X X