PCA主成分分析法浅理解

u小鬼

已于 2022-12-05 11:50:45 修改

阅读量965

点赞数

分类专栏：机器学习文章标签：算法概率论

于 2022-12-01 16:13:02 首次发布

本文链接：https://blog.csdn.net/qq_23096319/article/details/128123466

版权

机器学习专栏收录该内容

21 篇文章 11 订阅

订阅专栏

ML课刚学，发现更多是对线性代数的回顾。更进一步说，统计机器学习方法就是以高数、线代和概率论为基石构筑的“一栋大厦”。下面主要沿着老师ppt的思路讲讲对PCA方法的个人理解。

在这里插入图片描述
这里 $u_1^Tx^{(i)}$ 是 $x^{(i)}$ 在单位方向向量 $u_1$ 上的投影长度，实际上 $\frac{u_1\cdot x^{(i)}}{|u_1|}=u_1\cdot x^{(i)}=u_1^Tx^{(i)}$ .

在这里插入图片描述
求取投影后数据的方差，并通过协方差矩阵的形式表达：
$\frac{1}{N}\sum_{i=1}^{N}(u_1^Tx^{(i)}-u_1^T\mu)^2\\ =\frac{1}{N}\sum_{i=1}^{N}((x^{(i)})^Tu_1-\mu^Tu_1)^2\\ =\frac{1}{N}\sum_{i=1}^{N}((x^{(i)})^Tu_1-\mu^Tu_1)^T((x^{(i)})^Tu_1-\mu^Tu_1)\\ =\frac{1}{N}\sum_{i=1}^{N}u_1^T((x^{(i)})^T-\mu^T)^T((x^{(i)})^T-\mu^T)u_1\\ =\frac{1}{N}\sum_{i=1}^{N}u_1^T(x^{(i)}-\mu)(x^{(i)}-\mu)^Tu_1\\ =u_1^T[\frac{1}{N}\sum_{i=1}^{N}(x^{(i)}-\mu)(x^{(i)}-\mu)^T]u_1\\ =u_1^TSu_1$
第一步变换，将点积表达为 $u_1^Tx^{(i)}$ 和 $x^{(i)})^Tu_1$ 是等价的。

在这里插入图片描述
优化目标为使投影数据的方差最大，根据最大方差理论：方差越大，信息量越大。以此为目标使投影保留的数据信息量最大，损失最小。使用拉格朗日乘子法求解：
这里要用到矩阵求导公式： $\nabla_{X} X^TAX=(A+A^T)X$ .
在这里插入图片描述
求导后我们发现极值处， $\lambda_1$ 不就是协方差矩阵 $S$ 的特征值， $u_1$ 不就是对应的特征向量！左右同时乘上 $u_1^T$ ，得到 $u_1^TSu_1=\lambda_1$ ，等式左侧正是我们的优化目标，特征值 $\lambda_1$ 就是数据投影至向量 $u_1$ 上的方差。
因此，在算法步骤中，对 $S$ 进行特征值分解，将特征值从大到小排序 $\lambda_1,\lambda_2,...\lambda_n$ ，对应的特征向量为 $u_1,u_2,...u_n$ ，取前 $K$ 个作投影，将数据降至 $K$ 维。

PCA算法步骤：

在这里插入图片描述

前面提到损失最小，如何量化说明这点？通过降维后的数据重构原数据 $\widetilde{x}^{(i)}$ ，看损失了多少，是不是最小。

在这里插入图片描述
$x^{(i)}-uu^Tx^{(i)}||^2\\ =(x^{(i)}-uu^Tx^{(i)})^T(x^{(i)}-uu^Tx^{(i)})\\ =((x^{(i)})^T-(x^{(i)})^Tuu^T)(x^{(i)}-uu^Tx^{(i)})\\ =(x^{(i)})^Tx^{(i)}-2(x^{(i)})^Tuu^Tx^{(i)}+(x^{(i)})^Tuu^Tuu^Tx^{(i)}\\ =(x^{(i)})^Tx^{(i)}-2(x^{(i)})^Tuu^Tx^{(i)}+(x^{(i)})^Tuu^Tx^{(i)}\\ =(x^{(i)})^Tx^{(i)}-(x^{(i)})^Tuu^Tx^{(i)}$

而 $min\sum((x^{(i)})^Tx^{(i)}-(x^{(i)})^Tuu^Tx^{(i)})\\ \iff max\sum((x^{(i)})^Tuu^Tx^{(i)})$
进一步变换，利用 $u^Tx^{(i)}=(x^{(i)})^Tu$ ，
$\iff max\sum(((x^{(i)})^Tu)(u^Tx^{(i)}))\\ \iff max\sum((u^Tx^{(i)})((x^{(i)})^Tu))\\ \iff max\sum(u^Tx^{(i)}(x^{(i)})^Tu)\\ \iff max\ u^T\sum(x^{(i)}(x^{(i)})^T)u$
最后发现这和前面方差最大的优化目标时相等价，印证了最大方差理论。

u小鬼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
PCA主成分分析法浅理解

ML课刚学，发现更多是对线性代数的回顾。更进一步说，统计机器学习方法就是以高数、线代和概率论为基石构筑的“一栋大厦”。下面主要沿着老师ppt的思路讲讲对PCA方法的个人理解。优化目标为使投影数据的方差最大，根据最大方差理论：方差越大，信息量越大。以此为目标使投影保留的数据信息量最大，损失最小。通过降维后的数据重构原数据。的优化目标时相等价，印证了方差最大理论。，等式左侧正是我们的优化目标，特征值。，看损失了多少，是不是最小。因此，在算法步骤中，对。上的投影长度，实际上。个作投影，将数据降至。
复制链接

扫一扫