2019/04/10
(可能有些解释或者内容是不对的,一定要判断下2019/04/10)
引言
就目前来看,我大致理解了PCA的工作原理,但仍然有很多疑惑,先抛开这些不说,来整理一下我的认知。
要完全理解这个东西,需要的理论知识主要是统计学中的方差概念和线性代数中的特征向量和特征值。
认知
PCA作为一种降维的方式,通过找到数据方差最大的方向,作为新的特征,他本身并不代表着降维,需要你来指定需要多少个成分。(这个是写程序过程需要注意的)
最简单的理解方式,就是一个线性相关的数据集,比如X与Y正相关,如果对他进行PCA分析,那么他的两个成分分别是穿过点的一条直线和与前面这条直线垂直(正交)的线。第一条穿过所有点的就是第一成分。
(这里的理解仍然是非常浅显 2019/04/10)
注意:要从两个方面来理解,第一几何意义,第二,他的数学根据;目前来看从几何意义上算是理解了,但数学角度还是没有理解。
疑惑
-
虽然利用正交的两个线画出来,好像他们建立了新的坐标系,这样容易理解,但为什么呢?就比如说,第一成分的线稍微歪一点,那这个的分散度不是更大吗?
看到一个网站说,是为了让特征独立。 -
PCA的主题思想我明白了,但为什么可以用协方差矩阵的特征向量就可以来建立新的特征空间呢?(资源2)
资源
-
以问答的形式来解释PCA,making-sense-of-principal-component-analysis-eigenvectors-eigenvalues
他开始的回答比较通俗,就是要干这个事情, 但最后的时候,我再看到矩阵的时候,就不明白了。 -
关于疑惑2的类似问题what-is-an-intuitive-explanation-for-how-pca-turns-from-a-geometric-problem-wit
-
关于特征向量特征值的简单介绍
他的介绍,提到了这个矩阵变换的内容,这个也不知道以前学没学,反正忘干净了。 -
PCA 的数学原理和可视化效果
这个解释的很简洁,也很清楚,但有些词汇还是比较陌生。他提到了这个优化问题,这个我在那本统计学习的书上也见到过。 -
eigenvectors-and-eigenvalues/
这是一个可以可视化特征向量和特征值的网站,可以作为后续的理解。 -
PCA的解释a-one-stop-shop-for-principal-component-analysis
这个解释的角度不太一样,而且说了很多以前没见过的内容。 -
05.09-principal-component-analysis.html
结合代码和理论公式的解释。 -
understanding-principal-component-analysis-once-and-for-all
这个可能是涵盖内容最多的。他也是期望从线性代数的角度上给出描述。
我个人觉得,虽然那本手册(在文献软件中保存)解释的不够具体,但也差不多能理解了,再辅助这些内容。