高光谱学习记录|PCA
- 研究对象多变量、所需数据量大(多变量+大样本)
- 变量之间存在相关性,难分析(有相关性)
so 要降维!!而PCA可以降维
聚类分析>搞清楚数据的分布
- PCA可降维且没有丢弃任何东西,
因为这些数据在平面以外的第三个维度的分量都为0。 - 说明z’有相关性:假设这些数据在z’轴有一个很小的抖动,那么我们仍然用上述的二维表示这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,而这些信息对于我们的分析已经足够了,z’轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,噪声的引入,导致了数据不完全相关,但是,这些数据在z’轴上的分布与原点构成的夹角非常小,也就是说在z’轴上有很大的相关性。
数据在x’,y’ 轴上的投影构成了数据的主成分,不考虑在z’轴上有很大的相关性,因此,可以说PCA能够去相关性。
PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。
求解过程:
( 整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。)他讲得很清晰(┭┮﹏┭┮)
step1: 所有变量求均值、减去均值
step2:求特征协方差矩阵、求这个协方差矩阵的特征向量and特征值
step3: 特征值从大到小排列,选取最大的k个,并将这k个特征向量组成矩阵
step4: 将样本点投影到选的特征向量上
为什么求协方差的特征向量就可以???why???
- 最大方差理论:信号-有较大方差、噪声-有较小方差,信噪比-信号与噪声的方差之比。
- 最小二乘法
见上面(链接)