PCA－Principal Components Analysis数学原理

最新推荐文章于 2024-04-07 10:32:01 发布

原创

最新推荐文章于 2024-04-07 10:32:01 发布 · 5.6k 阅读

CC 4.0 BY-SA版权

文章标签：

PCA（主成分分析）用于处理高维数据，通过线性变换减少特征冗余。本文深入探讨PCA的动机、定义、相关知识、处理流程及特征值的重要性，揭示PCA如何增强数据的表征能力并进行有效的降维。

转载请注明出处：blog.csdn.net/yobobobo

最近自学的重点是特征工程，首当其冲的当然是PCA，可是看了好几篇国内搜索靠前的博客大部分都是做法而不是原理，为什么协方差矩阵的特征值最大就说明投影到这个特征向量上比其他的好呢？对于机器学习大部分时间都是调用别人写好的库就像是个用着黑盒子的感觉，特来一发原理，附上完整的数学推导。

Motivation———PCA的作用是什么，我们为什么要用PCA

wiki翻译－－－－PCA是一门数据统计方案，通过一个正交转换把可能线性相关的变量转换为几乎线型无关的变量（这些变量称作主成分）。主成分的数量比原来的变量数量更少或者一致。
通俗地讲，PCA就是把N维的向量经过线型变换转化为K维的向量（K<=N），需要注意的是，并不是把N－K维的特征扔掉了。

向量点积的几何意义
- $a * b = \|a\| * \|b\| * \cos\theta$
- $\|a\| * \cos\theta$ 相当于把a投影到b向量上的长度当 $\|b\|$ 为1的时候,a＊b就相当于把a投影到向量b上的长度
协方差矩阵
- 方差足够了吗？
- 以前上小学的时候，老师经常把某个学生的成绩记录作为讲解方差的经典例子，A的成绩均值和B的成绩均值一样，这时候怎么区分谁更好呢？
- 答日：A的方差比B的方差更小，说明A的成绩更加稳定。
- 然而这是小学，处理一维的数据已经足够了。
- 现实中的数据都是远远超过一维的，现在广告推荐的大规模LR训练特征可达上亿维度，方差已经不能再像以前一样：“较均值，取方差”。
- 协方差登场
- 定义： $cov(a, b)=\frac{\sum_{i=1}^{n}(X_i-\overline{X})(Y_i-\overline{Y})}{n-1}$
- 意义：表示两个数据的线型相关性，当 $cov(a, b)$ > 0的时候，说明 $a$ 和 $b$ 的是正相关的， $a$ 越大 $b$ 越大，反之时负相关的，为0则说明两者线型无关。
- 协方差矩阵
  顾名思义，就是不同变量之间的协方差组成的矩阵
  $c o v (a, a) c o v (b, a) c o v (c, a) c o v (a, b) c o v (b, b) c o v (c, b) c o v (a, c) c o v (b, c) c o v (c, c)$ $\begin{matrix} cov(a,a) & cov(a,b) &cov(a,c) \\ cov(b,a) & cov(b,b) & cov(b,c)\\ cov(c,a) & cov(c,b) & cov(c,c) \\ \end{matrix}$

核心：方差越大，数据的表征能力越强
- 给你两组数据，一组数据基本集中于某个点，另一组数据零零散散的，你认为哪个数据更好？一般都认为后者更好，因为前者可能是数据太少了，数据都集中于某一个点，这样的数据训练出来的模型泛化能力很差，后者的数据可以认为比较样本空间覆盖度高，训练出来的模型泛化能力更强。
- 从上一个例子，我们可以认为：方差越大，数据的表征能力越强

zstarstone 2016.04.18
最后一个公式应该不对吧，M应该$ M = \begin{pmatrix} \sum_{i=1}^ma_i^2 & \sum_{i=1}^m(a_ib_i) & \sum_{i=1}^m(a_ic_i)\\ \sum_{i=1}^m(b_ia_i) & \sum_{i=1}^mb_i^2 & \sum_{i=1}^m(b_ic_i)\\ \sum_{i=1}^m(c_ia_i) & \sum_{i=1}^m(c_ib_i) & \sum_{i=1}^mc_i^2\\ \end{pmatrix}= X^TX $

ZephyrGuo 2015.08.18
前方发现波神一枚
- Dhyuk回复煎饼果子来一套 2018.10.04
  [reply]yobobobo[/reply] 谢谢你哦,虽然我只看懂了一部分,还有些没看懂~~
- 煎饼果子来一套回复ZephyrGuo 2015.08.18
  [reply]gzh1992n[/reply] 妈蛋，我写这些公式好累，好了两个晚上