主成分分析系列（三）为何协方差矩阵的特征值越大对应的特征向量方向的方差越大

培之

已于 2023-07-02 15:30:46 修改

阅读量656

点赞数 1

分类专栏：机器学习文章标签：矩阵 python 机器学习

于 2023-07-02 15:29:25 首次发布

本文链接：https://blog.csdn.net/OrdinaryMatthew/article/details/131495856

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

由于在文章主成分分析系列（二）为何特征向量是主成分中提到的数据 $\mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \}$ 的scatter矩阵 $\mathbf{S}$ 矩阵跟协方差( covariance )矩阵 $\Sigma$ 仅仅相差一个标量系数 $n - 1$ 。下面用协方差矩阵 $\Sigma$ 进行描述。

1. $\mathbf{v}^{T}\Sigma\mathbf{v}$ 为什么是投影后数据的方差

数据 $\mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \}$ （注意，数据 $\mathbf{D}$ 已经零-均值化），将
$\mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n}$ 拼成一个大矩阵 $\mathbf{X}$
$\mathbf{X} \in \mathbb{R}^{n\times d}$
则协方差矩阵 $\Sigma$ = $\frac{1}{n-1}\mathbf{X}^T\mathbf{X}$

根据简单的线性代数知识，向量 $\mathbf{x}_i$ 在单位向量 $\mathbf{v}$ 上的投影向量是
$\mathbf{u}_i=(\mathbf{v}^T\mathbf{x}_i)\mathbf{v}$
投影后数据在投影方向上的方差是
$\begin{aligned}\hat{\sigma}^2 &=\frac{1}{n-1}\sum_{i=1}^{n}\vert \vert (\mathbf{v}^T\mathbf{x}_i)\mathbf{v}-(\mathbf{v}^T\mathbf{\bar{x}})\mathbf{v} \vert \vert ^2_2\quad(\mathbf{\bar{x}} := \mathbf{0})\\ &= \frac{1}{n-1}\sum_{i=1}^{n}\vert \vert (\mathbf{v}^T\mathbf{x}_i)\mathbf{v} \vert \vert ^2_2\\ &= \frac{1}{n-1}\sum_{i=1}^{n} (\mathbf{v}^T\mathbf{x}_i)^2\\ &= \frac{1}{n-1}(\mathbf{Xv})^T\mathbf{Xv}\\ &= \frac{1}{n-1}\mathbf{v}^T\mathbf{X}^T\mathbf{Xv}\\ &= \mathbf{v}^T\mathbf{\Sigma}\mathbf{v} \end{aligned}$

2.为何协方差矩阵的特征值越大对应的特征向量方向的方差越大

由于 $\Sigma$ 是实对称矩阵，所以根据矩阵的谱分解定理，有：
$\Sigma=\mathbf{P}\mathbf{D}\mathbf{P}^{T}$
其中 $\mathbf{P}$ 是正交矩阵， $\mathbf{D}$ 是对角矩阵
所以有：
$\mathbf{v}^{T}\Sigma\mathbf{v}=\mathbf{v}^{T}\mathbf{P}\mathbf{D}\mathbf{P}^{T}\mathbf{v}=\sum_{i=1}^d\lambda_i(\mathbf{p}_i^T\mathbf{v})^2$
其中， $\mathbf{p}_i$ 是矩阵 $\mathbf{P}$ 的第 $i$ 列，根据谱分解定理，也就是 $\Sigma$ 的第 $i$ 个特征向量。 $\lambda_i$ 是矩阵 $\mathbf{D}$ 的对角线上第 $i$ 元素。
我们想要
$\max \sum_{i=1}^d\lambda_i(\mathbf{p}_i^T\mathbf{v})^2$
由于 $\{\mathbf{p}_i\}$ 构成一组正交基底，根据正交基底的正交性质与向量内积及 $\mathbf{v}$ 是单位向量决定的（类似于三维坐标系中方向余弦和为1的证明），所以
$\sum_{i=1}^d(\mathbf{p}_i^T\mathbf{v})^2=1$
令 $z_i=\mathbf{p}_i^T\mathbf{v}$
故考虑上面的优化问题等价于：
$\text{max }\displaystyle\sum_{i=1}^d\lambda_iz_i^2,\quad\text{ s.t. }\sum_{i=1}^dz_i^2=1.$
假设
$\lambda_1 \ge\lambda_1 \ge\dots\lambda_d$
很明显，我们最好让 $z_1^2=1$ ，其余的 $z_i=0$
这意味着
$\mathbf{p}_1^T\mathbf{v}=1,\text{ and }\mathbf{p}_i^T\mathbf{v}=0\text{ for all }i\neq 1.$
由于 $\mathbf{p}_1$ 跟 $\mathbf{v}$ 都是单位向量。根据柯西-施瓦茨不等式中的等号成立的条件，
$\mathbf{p}_1^T\mathbf{v}=1⟺\mathbf{v}=c\times\mathbf{p}_1$
所以，具有最高特征值的特征向量使 PCA 的方差最大化。
协方差矩阵的特征值越大对应的特征向量方向的方差越大。

3. 其他视角

数据 $\mathbf{D}$ 的方差 $\text{Var}(\mathbf{D})$ 等于: $\text{Var}(\mathbf{D})=\text{tr}(\Sigma)=\sum_{i=1}^{d}\mathbf{\Sigma}_{ii}$
容易知道，协方差矩阵 $\Sigma$ 可以表示成
$\Sigma=\frac{1}{n-1}\sum_{i=1}^{n}\mathbf{x}_i\mathbf{x}_i^T$

根据简单的线性代数知识，向量 $\mathbf{x}_i$ 在单位向量 $\mathbf{v}$ 上的投影向量是
$\mathbf{u}_i=(\mathbf{v}^T\mathbf{x}_i)\mathbf{v}$
针对 $\mathbf{x}_i, \quad i=1,\dots,n$ ，可以得到相应在 $\mathbf{v}$ 的投影向量 $\mathbf{u}_i$
那么由 $\mathbf{u}_i \quad i=1,\dots n$ 形成的新的协方差矩阵是:
$\Sigma_{pr}=\frac{1}{n-1}\sum_{i=1}^{n}\mathbf{u}_i\mathbf{u}_i^T=\frac{1}{n-1}\sum_{i=1}^{n}(\mathbf{v}^T\mathbf{x}_i)\mathbf{v}((\mathbf{v}^T\mathbf{x}_i)\mathbf{v})^T=\frac{1}{n-1}\sum_{i=1}^{n}\mathbf{v}^T\mathbf{x}_i\mathbf{v}\mathbf{v}^{T}\mathbf{x}_i^T\mathbf{v}$

$=\mathbf{v}^{T}(\frac{1}{n-1}\sum_{i=1}^n\mathbf{x}_i\mathbf{v}\mathbf{v}^{T}\mathbf{x}_i^T)\mathbf{v}$
在板块 2 中已经知道，方差是 $\frac{1}{n-1}\mathbf{v}^T\mathbf{X}^T\mathbf{Xv}$
所以我们需要证明：
$\text{trace}(\Sigma_{pr}) = \text{trace}(\mathbf{v}^{T}(\frac{1}{n-1}\sum_{i=1}^n\mathbf{x}_i\mathbf{v}\mathbf{v}^{T}\mathbf{x}_i^T)\mathbf{v}) \overset{\text{?}}{=} \frac{1}{n-1}\mathbf{v}^T\mathbf{X}^T\mathbf{Xv}$
但是这个等号好像不成立，怎么说？

参考

Arnab Auddy (https://math.stackexchange.com/users/451712/arnab-auddy), Why eigenvectors with the highest eigenvalues maximize the variance in PCA?, URL (version: 2019-05-02): https://math.stackexchange.com/q/3211640
https://qr.ae/py5dFu
https://stats.stackexchange.com/questions/518992/first-principal-component-direction
https://stats.stackexchange.com/questions/519050/variance-of-projected-data

培之

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
主成分分析系列（三）为何协方差矩阵的特征值越大对应的特征向量方向的方差越大

数据Dx1x2xnDx1x2xn（注意，数据D\mathbf{D}D已经零-均值化），将x1x2xnx1x2xn拼成一个大矩阵X\mathbf{X}XX∈Rn×dX∈Rn×d则协方差矩阵Σ\SigmaΣ1n−1XTXn−11XTX根据简单的线性代数知识，向量xixi在单位向量v\mathbf{v}v上的投影向量是uivTxivui。
复制链接

扫一扫