机器学习-主成分分析PCA

一、介绍:
主成分分析,是统计学中一种用来分析多维数据的方法.通过对数据维数的降低,在对我们要实现的指标影响不大的前提下,达到减少数据量(减少数据的维度)的目的.换句话说,就是通过降低数据维数的方法,删减对于结果来说不必要的维度分量来减少数据量,没被删减掉的,就可以认为是我们我们实现目标影响较大的主成分.
PCA(Principal Component Analysis)方法最著名的应用应该是在人脸识别中特征提取及数据降维,我们知道即使是很小的一幅图片,在长宽相乘之后的像素位数也很多,比如输入300*300大小的人脸图像,我们的图片做灰度化后,输入的原始特征将达到90000维,如此高的特征向量维度势必带来巨量的运算,计算速度大大减慢。著名的人脸识别特征脸(Eigenface)法就是采用PCA算法,用一个低维子空间描述人脸图像,同时其中也保存了识别所需要的信息。

二、数学推导:
PCA 的数学推导可以从最大可分型和最近重构性两方面进行(存在两种最优化标准),前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小,这里我将从最大可分性的角度进行证明。

1、线性代数中概念的理解:

1.1、内积:

我们还记得内积的定义:

在向量的情况下公式可以写为:

我们还可以通过几何来理解:在数值上A与B的内积等于A在B方向上投影长度乘以B的模

当B为单位向量时,我们可以认为A与B的内积值等于A向B所在直线投影的标量大小

在后面的推导中,将反复使用这个理解方式。

1.2、基:

为了描述一个向量,首先要确定一组基底,然后给出在基所在的方向上的的投影值即可。

为了方便,我们通常规定这组基向量模长为1。因为根据1.1的结论,当模长为1时,内积表示在此方向上的投影长度。同时我们要求这组基是线性无关的,我们一般用正交基。

因此我们可以得出结论:想将一个在原基底上的向量映射到一个基于新的基底的坐标系中,我们只需要将向量与新的基底做内积即可。

 

例子:

2、最大可分性:

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,如果基的数量少于向量本身的维数,则可以达到降维的效果。

但是我们还没回答一个最关键的问题:如何选择基才是最优的。或者说,如果我们有一组 N 维向量,现在要将其降到 K 维(K 小于 N),那么我们应该如何选择 K 个基才能最大程度保留原有的信息?

一种直观的看法是:希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。当然这个也可以从熵的角度进行理解,熵越大所含信息越多。

2.1、方差:

我们知道数值的分散程度,可以用数学上的方差来表述。一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即:

为了方便处理,我们将每个变量的均值都化为 0 ,因此方差可以直接用每个元素的平方和除以元素个数表示:

于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

2.2、 协方差:

在一维空间中我们可以用方差来表示数据的分散程度。而对于高维数据,我们用协方差来衡量两个变量的相关性。为了让两个变量尽可能表示更多的原始信息,我们希望它们之间不存在线性相关性(协方差描述的就是线性关系,和独立性没有关系),因为相关性意味着两个变量联系较为紧密,表示的信息就有一定的重复。

协方差公式为:

由于均值为 0,所以我们的协方差公式可以表示为:

式子中的分母可能和数学中的不太一样,原式分母为m-1,但在机器学习中我们习惯性的使用m,因为对于大量样本而言,m与m-1没有太大的区别,而m是样本量更容易记住。

当协方差为 0 时,表示两个变量线性无关。为了让协方差为 0(最大可分性的要求),我们选择第二个基时只能在与第一个基正交的方向上进行选择,因此最终选择的两个方向一定是正交的。

至此,我们得到了降维问题的优化目标:将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后:各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

2.3、 协方差矩阵:

针对我们给出的优化目标,接下来我们将从数学的角度来给出优化目标。

我们看到,最终要达到的目的与变量内方差及变量间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。

于是我们有:

假设我们只有 a 和 b 两个变量,那么我们将它们按行组成矩阵 X:

我们知道向量乘自己可以看作是自己的协方差,向量乘另一个向量是他俩的协方差,因此我们将内方差与协方差统一与一个实对称矩阵:

我们可以看到这个矩阵对角线上的分别是两个变量的方差,而其它元素是 a 和 b 的协方差。两者被统一到了一个矩阵里。

我们推广到一般情况:设我们有 m 个 n 维数据记录,将其排列成矩阵$X_{n,m}$,设C=\frac{1}{m}XX\mathsf{T} ,则 C 是一个对称矩阵,其对角线分别对应各个变量的方差,而第 i 行 j 列和 j 行 i 列元素相同,表示 i 和 j 两个变量的协方差。

2.4 、矩阵对角化:

根据我们的优化条件,我们需要将除对角线外的其它元素化为 0,并且在对角线上将元素按大小从上到下排列(变量方差尽可能大),这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系。

设原始数据矩阵 X 对应的协方差矩阵为 C,而 P 是一组基按行组成的矩阵,设 Y=PX,则 Y 为 X 对 P 做基变换后的数据。设 Y 的协方差矩阵为 D,我们推导一下 D 与 C 的关系:

由此可知,我们要找的 P 是能让原始协方差矩阵对角化的 P。换句话说,优化目标变成了寻找一个矩阵 P,满足 PCP\mathsf{T}是一个对角矩阵,并且对角元素按从大到小依次排列,那么 P 的前 K 行就是要寻找的基,用 P 的前 K 行组成的矩阵乘以 X 就使得 X 从 N 维降到了 K 维并满足上述优化条件。

至此,我们离 PCA 还有仅一步之遥,我们还需要完成对角化。

由上文知道,协方差矩阵 C 是一个是对称矩阵,在线性代数中实对称矩阵有一系列非常好的性质:

   1.实对称矩阵不同特征值对应的特征向量必然正交。

   2.设特征向量λ重数为 r,则必然存在 r 个线性无关的特征向量对应于λ,因此可以将这 r 个特征向量单位正交化。

由上面两条可知,一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量,设这 n 个特征向量为,我们将其按列组成矩阵:

则对协方差矩阵 C 有如下结论:

其中为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。

到这里,我们发现我们已经找到了需要的矩阵 P:

P 是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是 C 的一个特征向量。如果设 P 按照中特征值的从大到小,将特征向量从上到下排列,则用 P 的前 K 行组成的矩阵乘以原始数据矩阵 X,就得到了我们需要的降维后的数据矩阵 Y。

2.5 、补充:

2.5.1、拉格朗日乘子法:

在叙述求协方差矩阵对角化时,我们给出希望变化后的变量有:变量间协方差为 0 且变量内方差尽可能大。然后我们通过实对称矩阵的性质给予了推导,此外我们还可以把它转换为最优化问题利用拉格朗日乘子法来给予推导。

我们知道样本点$X_{i}$在基 w 下的坐标为:(内积表示相应基下的坐标),于是我们有方差:

可以看出来:就是原样本的协方差,我们另这个矩阵为,于是我们有:(1.最大化方差2.单位正交基所以转置后相乘为1)

然后构造拉格朗日函数:

对 w 求导,得到极值时有:

此时我们的方差为:

于是我们发现,x 投影后的方差就是协方差矩阵的特征值。我们要找到最大方差也就是协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量,次佳就是第二大特征值对应的特征向量,以此类推。(解释了在优化时,为什么要从大到小排序后取前面K阶)

至此我们完成了基于最大可分性的 PCA 数学证明。

2.5.2、最近重构性:

以上的证明思路主要是基于最大可分性的思想,通过一条直线使得样本点投影到该直线上的方差最大

区别于最大可分性,这是从最近重构性的角度进行论证:我们还可以将其转换为线型回归问题,其目标是求解一个线性函数使得对应直线能够更好地拟合样本点集合。这就使得我们的优化目标从方差最大转化为平方误差最小,因为映射距离越短,丢失的信息也会越小。

三、求解步骤:

总结一下 PCA 的算法步骤。设有 m 条 n 维数据:

  1. 将原始数据按列组成 n 行 m 列矩阵 X;
  2. 将 X 的每一行进行零均值化,即减去这一行的均值;
  3. 求出协方差矩阵C=\frac{1}{m}XX\mathsf{T}
  4. 求出协方差矩阵的特征值及对应的特征向量;
  5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P;
  6. Y=PX即为降维到 k 维后的数据。

四、 性质:

  1. 缓解维度灾难:PCA 算法通过舍去一部分信息之后能使得样本的采样密度增大(因为维数降低了),这是缓解维度灾难的重要手段;
  2. 降噪:当数据受到噪声影响时,最小特征值对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到降噪的效果;、
  3. 过拟合:PCA 保留了主要信息,但这个主要信息只是针对训练集的,而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是重要信息,只是在训练集上没有很大的表现,所以 PCA 也可能加剧了过拟合;(加强了在特定数据下的适应性,降低了泛化度)
  4. 特征独立:PCA 不仅将数据压缩到低维,它也使得降维之后的数据各特征相互独立;

 

五、 细节:

5.1 零均值化

当对训练集进行 PCA 降维时,也需要对验证集、测试集执行同样的降维。而对验证集、测试集执行零均值化操作时,均值必须从训练集计算而来,不能使用验证集或者测试集的中心向量。

其原因也很简单,因为我们的训练集时可观测到的数据,测试集不可观测所以不会知道其均值,而验证集再大部分情况下是在处理完数据后再从训练集中分离出来,一般不会单独处理。如果真的是单独处理了,不能独自求均值的原因是和测试集一样。

另外我们也需要保证一致性,我们拿训练集训练出来的模型用来预测测试集的前提假设就是两者是独立同分布的,如果不能保证一致性的话,会出现 Variance Shift 的问题。

5.2 与 SVD 的对比

这是两个不同的数学定义。我们先给结论:特征值和特征向量是针对方阵才有的,而对任意形状的矩阵都可以做奇异值分解

PCA:方阵的特征值分解,对于一个方阵 A,总可以写成:

其中,Q 是这个矩阵 A 的特征向量组成的矩阵,是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵 A 的信息可以由其特征值和特征向量表示。

SVD:矩阵的奇异值分解其实就是对于矩阵 A 的协方差矩阵做特征值分解推导出来的:

其中:U V 都是正交矩阵,有。这里的约等于是因为 中有 n 个奇异值,但是由于排在后面的很多接近 0,所以我们可以仅保留比较大的 k 个奇异值。

所以,V U 两个矩阵分别是 的特征向量,中间的矩阵对角线的元素是 的特征值。我们也很容易看出 A 的奇异值和的特征值之间的关系。

PCA 需要对协方差矩阵C=\frac{1}{m}XX\mathsf{T} 。进行特征值分解; SVD 也是对进行特征值分解。如果取 则两者基本等价。所以 PCA 问题可以转换成 SVD 求解。

而实际上 Sklearn 的 PCA 就是用 SVD 进行求解的,原因有以下几点:

  1. 当样本维度很高时,协方差矩阵计算太慢;
  2. 方阵特征值分解计算效率不高;
  3. SVD 除了特征值分解这种求解方式外,还有更高效更准球的迭代求解方式,避免了的计算。
  4. 其实 PCA 与 SVD 的右奇异向量的压缩效果相同。

——————————————————————————————————————————

转载大佬文章地址:https://zhuanlan.zhihu.com/p/77151308

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值