主成分分析(PCA)

最新推荐文章于 2023-02-18 13:15:15 发布

hhjhh76

最新推荐文章于 2023-02-18 13:15:15 发布

阅读量262

点赞数

分类专栏：机器学习文章标签： PCA 主成分分析最大方差理论

本文链接：https://blog.csdn.net/hhjhh76/article/details/81945836

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

PCA是一种降维的方法，用于将样本从较高的N维投影到较低的K维，PCA认为最好的K维空间是将样本点转换为K维后，每一维的样本方差都很大，方差较大保证了样本点在K维空间构成的超平面上的投影能尽可能的分开。

那么如何能找到符合条件的K维空间了？下面以将样本投影到某一维上为例：
首先对所有的样本进行中心化，即将样本减去他们的均值，

上图中 $X_{i}$ 为其中一个样本点，将 $X_{i}$ 投影到 $u （ ∣ ∣ u ∣ ∣ = 1 ）$ 上

由于样本点已经进行中心化，所以其每一维特征均值都是0，因此投影到 $u$ 上的样本点的均值仍然是0。最佳的 $u$ 要使得投影后的样本点方差最大，方差可以用下面式子计算：

$\frac{1}{m}\sum_{i=1}^m(X_{i}^{T}u)^2=\frac{1}{m}\sum_{i=1}^mu^{T}X_{i}\cdot X_{i}^{T}u=u^{T}\cdot(\frac{1}{m}\sum_{i=1}^{m}X_{i}\cdot X_{i}^{T})\cdot u$

令 $\lambda=\frac{1}{m}\sum_{i=1}^{m}(X_{i}^{T}u)^2$ ， $\sum=\frac{1}{m}\sum_{i=1}^{m}X_{i}\cdot X_{i}^{T}$ （X的协方差矩阵为 $\frac{1}{m-1}\sum_{i=1}^{m}X_{i}\cdot X_{i}^{T}$ ）
则：
$\lambda =u^{T}\sum u$
$\Longrightarrow$ $\lambda u=u\lambda=u\cdot u^{T}\sum u=\sum u$
$\Longrightarrow$ $\lambda u=\sum u$

$\lambda$ 是 $\sum$ 的特征值， $u$ 是特征向量。最佳投影直线是特征值 $\lambda$ 最大时对应的特征向量，其次是 $\lambda$ 第二大对应的特征向量，以此类推。

所以PCA算法如下：
输入：样本集 $D=\{X_{1},X_{2},...,X_{i},...,X_{m}\},低维空间维数K$
过程：1.对所有样本进行中心化： $X_{i}\longleftarrow X_{i}-\frac{1}{m}\sum_{i=1}^{m}X_{i}$
           2.计算样本的协方差矩阵 $XX^T$
           3.对协方差矩阵 $XX^{T}$ 做特征值分解
           4.取最大的K个特征值所对应的特征向量 $W_{1},W_{2},...,W_{k}$
输出：投影矩阵 $W^{*}=(W_{1},W_{2},...,W_{k})$
将原数据与投影矩阵相乘即得到降维后的数据

由于数据进行了中心化，且协方差矩阵是对称的，所以 $W_{i}$ 是标准正交基向量, $W_{i}|=1,W_{i}^{T}W_{j}=0$

参考书籍：《机器学习》

hhjhh76

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
主成分分析(PCA)

PCA是一种降维的方法，用于将样本从较高的N维投影到较低的K维，PCA认为最好的K维空间是将样本点转换为K维后，每一维的样本方差都很大，方差较大保证了样本点在K维空间构成的超平面上的投影能尽可能的分开。那么如何能找到符合条件的K维空间了？下面以将样本投影到某一维为上为例：首先对所有的样本进行中心化，即将样本减去他们的均值，上图中XiXiX_{i}为其中一个样本点，将XiXiX_{i...
复制链接

扫一扫