参考以下链接
1. PCA (主成分分析)详解 (写给初学者)
- 从本博文中理解以下几点:
- 计算协方差矩阵的作用:
– 首先应理解PCA的核心思想是将原数据从n维的高维向量空间转换到新的k维的低维向量空间中。
– 为保证新的向量空间中不同维度之间数据尽可能有少的冗余信息,k维基向量应该为正交基。
– 那么如何保证这k维之间相互正交呢?联系到协方差的概念,如果两个向量互相正交,向量之间的协方差为零。由此,如果k个维度相互正交,需要每个维度相互之间的协方差都为零即可(协方差阵对角化过程)。- 协方差阵对角化之后计算特征值以及特征向量,按照特征值大小降序排列特征向量。
- 模式矢量是由所需要的k个特征矢量组成的矩阵。每一个特征矢量是模式矢量中的一列。
- 第五点没有讲清楚。没有理解这个过程。
2. 机器学习学习笔记 第二十二章 主成分分析PCA算法
- 从本博文中理解以下几点:
- 从矩阵分析的角度看,对数据进行降维的本质是将数据从原本的向量空间使用一组正交基变换转换到这组正交基表示的低维空间中。(矩阵论学好用处很大)
3. 线性代数的本质
- 视频本身与PCA关系不大,但难能可贵的地方在于作者使用生动形象的视频动画对抽象的线性代数概念进行了演示,有助于很多地方的理解,在本科学习线性代数的过程中只是学会了如何解题,很多概念并没有真正理解。认真学习,大有裨益。
4. PCA 降维算法详解 以及代码示例
- 从本博文中理解以下几点:
5. 奇异值分解(SVD)详解及其应用
- 本文中理解以下几点:
- 从数字信号的角度理解PCA:方差大的方向是信号传输的方向,方差小的方向是噪声的方向。在实际生产过程中需要提升信号与噪声的比例大小,也就是信噪比。
- 从以上的角度来理解PCA,可以如下阐述:在原始空间中顺序的找到一组正交坐标轴,使得第一个坐标轴上方差最大,第二个坐标轴是与第一个坐标轴垂直的平面中使得方差最大的方向,第三个坐标轴是在与第一、二个平面正交的平面中方差最大的方向。经过此过程,使得每一个坐标轴上的信噪比最小,即用最少的信息损失代替了原来的数字信号。
- 从奇异值分解的角度理解压缩:
按行压缩—>对离群samples进行合并压缩
按列压缩—>对不重要特征进行剔除
(矩阵中行代表数据记录,列代表数据特征)
另外,博主是一位大佬,主页有很多干货,可以多多关注。
6.机器学习】降维——PCA(非常详细)
PCA求解步骤:
求解步骤
总结一下 PCA 的算法步骤:
设有 m 条 n 维数据。
- 将原始数据按列组成 n 行 m 列矩阵 X;
- 将 X 的每一行进行零均值化,即减去这一行的均值;
- 求出协方差矩阵 ;
- 求出协方差矩阵的特征值及对应的特征向量;
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P;
- 下式即为降维到 k 维后的数据