5-降维(Dimensionality Reduction)-3-主成分分析(PCA)-最大投影方差角度

最新推荐文章于 2021-07-14 13:29:53 发布

0xFE05B

最新推荐文章于 2021-07-14 13:29:53 发布

阅读量584

点赞数

分类专栏： # （五）降维机器学习-白板推导系列

欢迎转载！标明出处即可

本文链接：https://blog.csdn.net/qq_35485933/article/details/104080363

版权

（五）降维同时被 2 个专栏收录

2 篇文章

订阅专栏

机器学习-白板推导系列

2 篇文章

订阅专栏

本文介绍了主成分分析（PCA）的概念，重点在于最大投影方差的角度选择。通过样本均值和协方差矩阵来理解PCA如何找到使样本点投影后分布最分散的方向，即主成分。PCA的目标是最大化投影方差并最小化重构距离，这两者在实践中是等价的。文章还涉及到中心化处理和拉格朗日乘子法在求解最大方差方向中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

接上一节：

数据

$x_i\in \mathbb{R^p}, i=1,2,\dots,N$
$X=(x_1,x_2,\dots,x_N)^T_{N\times p}= \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}= \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots \\ x_{N1} & x_{N2} & \dots & x_{Np} \end{pmatrix}_{N\times p}$

结论

样本均值(Sample Mean)： $\overline{X}_{p\times1}=\dfrac{1}{N}\sum_{i=1}^{N}x_i=\dfrac{1}{N}X^T1_N$

样本协方差(Sample Covariance)： $S=\dfrac{1}{N}\sum_{i=1}^{N}(x_i-\overline{X})(x_i-\overline{X})^T=\dfrac{1}{N}X^THX$

其中： $1_N=\begin{pmatrix}1\\1\\\vdots\\1\end{pmatrix}_{N\times 1}$ ， $H=I_N-\dfrac{1}{N}1_N1_N^T$ ， $\overline{X}\in\mathbb{R}^p$ ， $S\in\mathbb{R}^{p\times p}$

H为中心矩阵(centering matrix)，中心矩阵将X每一维都减去均值，实现归一化。

经典PCA

一个中心：原始特征空间的重构，线性相关特征–>线性无关特征（主成分）
两个基本点：

最大投影方差：样本点投影到某方向上分布尽量分散（投影方差最大），该方向就是主成分。
最小重构距离：样本点投影后重构回去所花的代价要最小，投影分布越分散（投影方差最大），则重构所需的代价越小。所以，这两个方法其实是等价的。

最大投影方差：

中心化处理： $x_i-\overline{X}$ ，均值变为0

假设其中一个所取的方向为 $u_1,\quad s.t.\ \left\|u_1\right\|=u_1^Tu_1=1$

投影为： $\dfrac{(x_i-\overline{X})^Tu_1}{\left\|u_1\right\|}=(x_i-\overline{X})^Tu_1$

因为 $x_i-\overline{X}$ 均值为0，所以投影方差 $J$ ：

$\begin{aligned}J &=\sum_{i=1}^{N}((x_i-\overline{X})^Tu_1)^2\\ &=\sum_{i=1}^{N}(x_i-\overline{X})^Tu_1\cdot(x_i-\overline{X})^Tu_1\\ \\ &\because\ (x_i-\overline{X})^Tu_1是个数，所以(x_i-\overline{X})^Tu_1=((x_i-\overline{X})^Tu_1)^T=u_1^T(x_i-\overline{X})\\ \\ \therefore J&=\sum_{i=1}^{N}u_1^T(x_i-\overline{X})(x_i-\overline{X})^Tu_1\\ &=u_1^T[\sum_{i=1}^{N}(x_i-\overline{X})(x_i-\overline{X}^T)]u_1\\ &=N\cdot u_1^T[\dfrac{1}{N}\sum_{i=1}^{N}(x_i-\overline{X})(x_i-\overline{X}^T)]u_1\\ &=N\cdot u_1^TSu_1\propto u_1^TSu_1 \end{aligned}$

由上述可得：
$最大化投影方差J\Longleftrightarrow \left\{ \begin{aligned} &\hat{u}_1=argmax\ u_1^TSu_1\\ &s.t. \quad u_1^Tu_1=1 \end{aligned} \right.$
拉格朗日乘子法：

$\begin{aligned} &\mathcal{L}(u_1,\lambda)=u_1^TSu_1+\lambda(1-u_1^Tu_1)\\ \\ &\dfrac{\partial\mathcal{L}}{\partial u_1}=2Su_1-\lambda\cdot2u_1=0\\ \\ &\dfrac{\partial\mathcal{L}}{\partial u_1}=0\Longrightarrow Su_1=\lambda u_1 \end{aligned}$