PCA主成分分析

最新推荐文章于 2020-09-22 19:20:03 发布

Nine_xu

最新推荐文章于 2020-09-22 19:20:03 发布

阅读量448

点赞数 1

分类专栏：机器学习文章标签：机器学习降维

本文链接：https://blog.csdn.net/lameraaa/article/details/100108185

版权

机器学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

PCA主成分分析

文章目录

预处理
PCA的数学目标

给定一组数据 {

x_1,x_2,...,x_n

}

预处理

将每一维特征的均值中心化，方差归一化

$\frac {1}{n}\sum_{i=1}^nx_i$ // $u$ 就是数据中心
{ $x_1,x_2,...,x_n$ } = { $x_1-u,x_2-u,...,x_n-u$ } // 数据中心化：将坐标原点移到数据的中心点：其中： $u=\lbrace u_1,u_2,...,u_m\rbrace^T$ ，是一个 $n$ 维列向量。
$\sigma_j^2=\frac{1}{m}\sum_{j}(x_i^j)$
$x_i^j= x_i^j/\sigma_j$

PCA的数学目标

特征的主方向，就是特征幅度变化最大的方向。为了找到特征变化最大的方向，假设单位方向矢量 $u$ ，则特征点 $x$ 在 $u$ 方向上的投影点 $x^’$ 距离原点的距离 $d=x^Tu$ 。所有的样本点都在一个方向上投影后，它们就都在同一直线上了。
要比较它们之间变化的程度，只要比较 $d$ 的方差就行了。方差最大的 $u$ 对应的方向就是要找的主方向。

注：方差计算：

因此，目标函数就成了：
$max_u\frac{1}{n}\sum_{i=1}^n(x_i^Tu)^2 \\=max_u\frac{1}{n} \sum_{i=1}^nu^Tx_ix_i^Tu\\=max_uu^T(\frac{1}{n}\sum_{i=1}^nx_ix_i^T)u$
其中 $x_i$ 表示第 $i$ 个样本， $n$ 表示样本总数。（因为 $x$ 已中心化，所以 $x_i^Tu$ 的均值也是0，因此 $x_i^Tu$ 的平方之和就是方差）
上式括号中的一项非常熟悉，就是协方差矩阵 $\sum$ ，再看上面的式子，协方差矩阵与投影的方向无关，只与样本有关。因此协方差矩阵完全决定了数据的分布情况。
所以目标函数如下：
$max_uu^T\sum u \\ s.t.u^Tu=1$
利用拉格朗日乘子法可求解上面的最大化问题：
$\sum u=\lambda u$
由上， $u$ 就是 $\sum$ 的特征向量， $\lambda$ 就是特征值。带入目标函数得：
$max_uu^T\sum u =max_uu^T\lambda u=max_u\lambda u^Tu=max_u\lambda$
所以，可以通过协方差矩阵的迹来衡量方差的大小。最大的特征值 $\lambda$ 对应的特征向量 $u$ 决定了数据变化最大的方向。 $u$ 就是要求的单位向量。
因此，PCA的求解过程就是对协方差矩阵进行特征值分解，并且找到最大的几个特征值的过程。

Nine_xu

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
PCA主成分分析

PCA主成分分析给定一组数据 {x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn}预处理将每一维特征的均值中心化，方差归一化u=1n∑i=1nxiu = \frac {1}{n}\sum_{i=1}^nx_iu=n1∑i=1nxi // uuu就是数据中心{x1,x2,...,xnx_1,x_2,...,x_nx1,...
复制链接

扫一扫

专栏目录