主成分分析（Principal Component Analysis,PCA）

孤嶋

已于 2023-11-27 11:01:23 修改

阅读量115

点赞数

文章标签：算法数据降维

于 2023-11-12 15:12:31 首次发布

本文链接：https://blog.csdn.net/Gaowang_1/article/details/134361048

版权

Principal Component Analysis（PCA）

主成分分析(Principle Component Analysis)的本质是对原始特征空间的重构，具体动机是针对原始特征空间中可能存在线性相关的特征，使用一系列正交变换将其转化为一组两两相互正交的正交基。

输入： 原始数据 $X∈R^{d×n}$ 、降维后的维数k

输出： Y=PX，即降维后的数据。

算法步骤：

1.将X的每一行进行中心化，即减去这一行的均值（目的是将所有样本平移至样本空间的中心位置，而演样本之间的相对位置不发生变化）： $x_{centered}= x−μ$
2.求出协方差矩阵 $C=\frac1nXX^T$
3.求出协方差矩阵的特征值和特征向量
4.将特征向量按对应的特征值的大小从上到下按行排列成矩阵，取前k行组成矩阵P
5. $Y = PX$ 即为降维后的数据

最优化方法的推导证明：

（一）基于最大投影方差

最大投影方差的思想是：以原始样本点到某一特征方向的投影结果方差达到最大的特征方向作为第一个主成分，从而找到一组相互正交的正交基。

我们希望变化后的数据，协方差为0且数据内方差尽可能大

当样本进行了中心化之后==投影的均值为零==，证明如下：
$\mu=\frac1n\sum_{i=1}^n[w^\top (x_i-\bar{x})]\\=w^\top[\frac1n\sum_{i=1}^n (x_i-\bar{x})]\\=w^\top(\frac1n\sum_{i=1}^n x_i-\frac1n ·n·\bar{x})\\ =w^\top(\bar{x}-\bar{x})=0$

本点 $x_i$ 在基 $w$ 下的投影结果为： $(x_i,w)=w^\top x_i$ ，于是我们有方差：

$样本方差计算公式:\\ \\ S^2=\frac1{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$

投影方差为：
$\\ \\(投影后投影均值为0)\\ D(x)=\frac1n∑_{i=1}^n(w^\top (x_i-\bar{x})-0)^2 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\frac1n∑_{i=1}^n[(w^\top (x_i-\bar{x}))(w^\top (x_i-\bar{x}))^\top]\\ \ \ \ \ \ \ \ \ \ \ \ \ =\frac1n Σ_{i=1}^n w^\top(x_i-\bar{x})(x_i-\bar{x})^\top w \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =w^\top (\frac1nΣ_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^\top ) w\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$

直接用中心化之后的样本计算：
$D(x)=\frac1n∑_{i=1}^n(w^\top x_i)^2 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\frac1n∑_{i=1}^n[(w^\top x_i)(w^\top x_i)^\top]\\ \ \ \ \ \ \ \ \ \ \ \ \ =\frac1n Σ_{i=1}^n w^\top x_ix_i^\top w \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =w^\top (\frac1nΣ_{i=1}^n x_ix_i^\top ) w\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$
$Σ_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^\top )$ （中心化之后是 $\frac1nΣ_{i=1}^n x_ix_i^\top$ ）就是协方差矩阵（或者叫做散度矩阵），我们另这个矩阵为 $\Lambda$ ，于是我们有：
$\begin{cases} w=arg \ max\ \ {w^\top \Lambda w} \\ s.t.w^Tw=1 \end{cases}$
然后构造拉格朗日函数：
$w^t Λw + \lambda(1-w^Tw)$
对 w 求导：

$Λw=\lambda w$
此时我们的方差为：

$D(x)=w^TΛw=\lambda w^Tw=\lambda$
于是我们发现，x 投影后的方差就是协方差矩阵的特征值。我们要找到最大方差也就是协方差矩阵最大的特征值，最佳投影方向就是最大特征值所对应的特征向量，次佳就是第二大特征值对应的特征向量，以此类推。

（二）基于最小重构误差

特征空间重构是基于样本内部维度特征之间可能存在线性相关的情况，从而通过正交变换，使可能存在线性相关的一组特征转换成相互正交的(必然也是线性无关的) 的一组新特征。

以二维举例：

样本点 $x_i=\begin{bmatrix}x_{i_1}\\x_{i_2}\end{bmatrix}$ 在特征空间重构之后得到新的向量结果 $x_i'=\begin{bmatrix}w_{i_1}\\ w_{i_2}\end{bmatrix}$ ，图像如下：

在这里插入图片描述

能够得到：
$w_{i_1}=w_1^\top x_i\\ w_{i_2}=w_2^\top x_i\\ x_i'=(w_1^\top x_i,w_2^\top x_i)^\top\\ =[w_1^\top x_i]w_1+[w_2^\top x_i]w_2$
$x_i'$ 写成这样的原因：

$[w_1^\top x_i]$ 是一个标量或者是一个系数，对应的 $[w_1^\top x_i]w_1$ 可以表示为如下的形式：
$[w_1^\top x_i]w_1= \begin{bmatrix} w_1^\top x_i \\ 0 \end{bmatrix}$
同理 $[w_2^\top x_i]w_2$ 可以表示为如下：
$[w_2^\top x_i]w_2= \begin{bmatrix} 0\\ w_2^\top x_i\end{bmatrix}$
因而：
$x_i'=\begin{bmatrix} w_1^\top x_i \\ 0 \end{bmatrix}+\begin{bmatrix} 0\\ w_2^\top x_i\end{bmatrix}=\begin{bmatrix}w_1^\top x_i\\ w_2^\top x_i\end{bmatrix}$
将二维延伸到高维特征空间中，假设 $x_i$ ∈ $X$ 的d维特征表示如下：
$x_i= \begin{bmatrix} x_{i_1}\\ x_{i_2}\\ ...\\ x_{i_d}\\ \end{bmatrix}$
通过特征空间重构的方式得到一组正交基，正交基的特征向量和对应特征值为：

特征值	$λ_1$	$λ_2$	…	$λ_d$
特征向量	$w_1$	$w_2$	…	$w_d$

如果重构过程中没有丢失信息，那么特征空间重构条件下的 $x_i'$ 表示如下：
$x_i'= \begin{bmatrix} w_1^\top x_i \\ 0 \\0\\...\\0 \end{bmatrix}+ \begin{bmatrix} 0\\ w_2^\top x_i\\0\\...\\0 \end{bmatrix}+...+ \begin{bmatrix} 0 \\ 0 \\0\\...\\w_d^\top x_i \end{bmatrix} =\begin{bmatrix}w_1^\top x_i\\ w_2^\top x_i\\w_3^\top x_i\\...\\w_d^\top x_i\end{bmatrix}$
重构的核心出发点是降维

基于上述特征重构结果，选择最大的q 个特征值对应的特征向量，其余特征值结果忽略不计。

这种操作极大概率导致样本点的特征信息造成损失。

执行降维之后的重构样本点表示为：
$x_i''=\sum_{k=1}^q[w_k^\top x_i]w_k$
重构代价

重构代价表示样本点重构前与重构后之间差值的模：
$|x_i'-x_i''|=\sqrt{||x_i'-x_i''||^2}$
为了方便运算，去掉根号后的重构代价为：
$x_i'-x_i''||^2$
N个样本点的重构总代价为：
$\sum_{i=1}^n||x_i'-x_i''||^2$
为了方便运算添加一个系数 $\frac1n$ ：
$J=\frac1n\sum_{i=1}^n||x_i'-x_i''||^2$
将 $x_i'\ \ 和\ \ x_i''$ 带入得到：
$J=\frac1n\sum_{i=1}^n||\sum_{k=q+1}^d[w_k^\top x_i]w_k||^2$
$[w_k^\top x_i]w_k$ 该向量具体结果表示如下：
$[w_k^\top x_i]w_k= \begin{bmatrix} 0\\ 0\\ ...\\ w_k^\top x_i\\ 0\\ ...\\ 0 \end{bmatrix}$
则该向量模的平方为：
$||[w_k^\top x_i]w_k||^2=0^2+...+[w_k^\top x_i]^2+...+0^2=[w_k^\top x_i]^2$
则：
$J=\frac1n\sum_{i=1}^n\sum_{k=q+1}^d[w_k^\top x_i]^2$
将样本点中心化加入到公式：
$J=\frac1n\sum_{i=1}^n\sum_{k=q+1}^d[w_k^\top (x_i-\bar{x})]^2\\ =\frac1n\sum_{i=1}^n\sum_{k=q+1}^d[w_k^\top (x_i-\bar{x})][w_k^\top (x_i-\bar{x})]^\top\\ =\frac1n\sum_{i=1}^n\sum_{k=q+1}^d w_k^\top (x_i-\bar{x}) (x_i-\bar{x})^\top w_k\\ =\sum_{k=q+1}^d w_k^\top [\frac1n\sum_{i=1}^n(x_i-\bar{x}) (x_i-\bar{x})^\top ]w_k\\ =\sum_{k=q+1}^d w_k^\top \Lambda w_k\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$
基于最小重构代价转化为优化问题：
$\begin{cases} \underset{w_k}{arg\ min\ J} \\ s.t.\ \ w_k^\top w_k=1 \end{cases}$
构造拉格朗日函数：
$L(w)=\sum_{k=q+1}^d w_k^\top \Lambda w_k+\lambda(1-w_k^\top w_k)$
对 $w_k$ 求偏导数零其等于零：
$\frac{\partial L(w)}{\partial w}=0→\Lambda w=\lambda w$
虽然最终结果和最大投影方差的表示结果相同，但由于求解的是重构代价的最小值。因此，在选择特征向量过程中，从 最小特征值对应的特征向量开始选取。而最大投影方差从最大特征值对应得特征向量开始选取。