机器学习基础---降维方法---主成分分析（PCA）推导

最新推荐文章于 2024-09-07 17:53:28 发布

Guanxiong He

最新推荐文章于 2024-09-07 17:53:28 发布

阅读量236

点赞数

分类专栏：机器学习基础文章标签：线性代数机器学习人工智能

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121034453

版权

机器学习基础专栏收录该内容

20 篇文章 5 订阅

订阅专栏

主成分分析 PCA

算法概述

核心思路：

最大化方差（最大可分性）:
- 直观来讲，PCA方法的目的是在原样本空间中找到m个方向，使原始样本点在这m个方向上的投影尽可能地分散，以此保证原始样本点在投影时不会出现多点投影到一点，进而导致较大信息损失的情况

2dim

如上图，投影到方差小的坐标轴方向会出现多对一的映射，原本可分的样本变得不可分，信息损失较大

同时，对于目标维度d>1的情况，为了尽可能表示更多的原始信息，希望各个基向量不存在线性相关性，即基向量相互正交

目标维度上方差最大化的思路可以用数学语言表示为：
$\underset {W}{argmax} = tr(W^TXX^TW)\\ s.t.\ W^TW=I$

就目标函数而言，基向量有正交限制，但如果不对基向量的模长进行限制，目标函数无上限，因此该目标函数需要对W进行单位正交限制
最小化重构误差：
- 此为PCA的另一种理解方式，即要求在通过 $Y = f (X)$ 降维之后，再通过 $X'=f^{-1}(Y)$ 恢复到原来的高维度，最小化 $X$ 与 $X^{'}$ 的距离（差距）
- 以线性变换为例，如：对 $Y=W^TX$ ，可以通过 $X'=WW^TX$ 进行恢复（重构）
- 最小化重构误差的数学表达：
  $\underset{W}{argmin}||X-WW^TX||_F^2 \\ s.t.\ W^TW=I$
两种思路的一致性：
- 对于最小化重构误差思路：
  $\begin{aligned} ||X-WW^TX||_F^2 &= tr[(X-WW^TX)(X-WW^TX)^T]\\ &=tr(XX^T-XX^TWW^T-WW^TXX^T+WW^TXX^TWW^T)\\ &=tr(\sum)-tr(W^TXX^TW^)-tr(W^TXX^TW)+tr(W^TXX^TW)\\ &=tr(\sum)-tr(W^TXX^TW) \end{aligned}$
  由于协方差阵确定，最小化重构误差即为最大化 $tr(W^TXX^TW)$ ，即为最大化方差

算法推导

矩阵形式目标函数最优化：

以最大化方差为优化目标：
$目标：\underset {W}{arg\ max} \ \ tr(W^T\sum W)\ \ \ s.t.\ W^TW=I\\ 对有约束最优化问题，由拉格朗日乘子法，得：\ tr(W^T\sum W)-tr(\Lambda(W^TW-I)) \\ 求导并令值为0，得: \ 2\sum W-2W\Lambda=0 \\ 即：\sum W=W\Lambda \\$

证明一：变换矩阵W中的列向量为协方差矩阵 $\sum$ 的特征向量
$\underset{d*m}W=[p_1,p_2,...,p_m]\\ \\ \sum_{d*d}=XX^T=\left[ \begin{matrix} Cov(a_1,a_1) & Cov(a_1,a_2) & ... & Cov(a_1,a_d)\\ Cov(a_2,a_1) & Cov(a_2,a_2) & ... & Cov(a_2,a_d)\\ ... & ... & ... & ...\\ Cov(a_d,a_1) & Cov(a_d,a_2) & ... & Cov(a_d,a_d) \end{matrix} \right]$
$\underset{d*m}{\sum W}= [\sum p_1,\sum p_2,...,\sum p_m] \underset {m*m}\Lambda=\left[ \begin{matrix} \lambda_1 & 0 & ... & 0 \\ 0 & \lambda_2 & ... & 0\\ ... & ... & ... & ...\\ 0 & 0 & ... & \lambda_m \end{matrix} \right ]$
$\underset {d*m}{W\Lambda}=[\lambda_1p_1, \lambda_2p_2,...,\lambda_mp_m]$
由等式可得：

$\sum W = W\Lambda \\ [\sum p_1,\sum p_2,...,\sum p_m] = [\lambda_1p_1, \lambda_2p_2,...,\lambda_mp_m]$
即得到等式组：
$\left \{ \begin{aligned} \sum p_1&=\lambda_1p_1\\ \sum p_2&=\lambda_1p_2\\ ...\\ \sum p_m&=\lambda_1p_m \end{aligned} \right.$

同时存在单位正交约束：
$\left \{ \begin{aligned} p_ip_j=0 \ \ \ i\neq j\\ p_ip_j=1 \ \ \ i=j \end{aligned} \right.$

因此可证得， $p_i$ 为协方差矩阵特征向量， $x_i$ 为特征值。即满足该条件时，该最优化问题取得极值

证明二：当选取的特征向量是对应特征值最大的m个时，方差最大

优化目标： $tr(W^T\sum W)=tr(W^TW\Lambda)=tr(\Lambda)$
因此最大化方差等价于最大化对角阵 $\Lambda$ 的迹，即最大化m个特征向量对应的特征值之和

算法流程

1）标准化样本矩阵X，使样本均值为0，方差为1

2）计算协方差矩阵，进行特征值分解，获取<特征值，特征向量>对

3）选取最大m个特征值对应的特征向量 $p_1,...p_m$ ，组成变换矩阵W

4）通过 $Y=W^TX$ 的变换，将样从d维降至m维

Guanxiong He

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础---降维方法---主成分分析（PCA）推导

主成分分析 PCA算法概述相关数学概念：从矩阵空间角度分析PCA方法：对于原始样本来说，其基向量为d个形如(1,0,0,…,0)，(0,1,0,…,0)，(0,0,0,…,1)的单位正交向量，这些向量张成d维样本空间，样本点的坐标代表着d个基向量的线性组合：xi=(xi1,xi2,...,xi,d)T=xi1(1,0,0,...,0)T+...+xid(0,0,0,...,1)Tx_i=(x_{i1},x_{i2},...,x_{i,d})^T=x_{i1}(1,0,0,...,0)^T
复制链接

扫一扫