相关概念:
1. 高斯分布:就是正态分布
主成分分析:
1.主成分:将样本作图,数据变化剧烈程度最大的方向就是主成分所在的方向。就是说,数据在某个方向上的投影上的方差最大,那么这个方向就是主成分的方向。
2.通过特征值和特征向量来求主成分,对数据做相应的变化(比如在将数据沿某轴缩放,然后旋转),然后计算样本协方差矩阵,求这个协方差矩阵的特征值和特征向量,特征值最大的就对应最主要的主成分,其对应的特征向量就是样本投影的方向。
第三张图中的椭圆的长轴方向就是最大的特征值对应的特征向量的方向
通过主成分分析降维(将数据由n维降到m维):
1.数据预处理:
在降维之前,需要对数据进行预处理,最常见的方法就是,将数据减去均值再除以标准差,这样子可以避免不同维度之间的数据差距过大带来的不良影响。
2.降维步骤:
- 首先求n维数据的协方差矩阵(n*n维)
- 计算协方差矩阵的特征值和对应的特征向量
- 挑选前面最大的m个特征值,然后分别将样本投影到相应的m个方向(特征向量在的方向),即可得到m维数据
3.降维后的数据处理
- 其实这里暗藏一个线性代数中的知识,就是变换后的数据,每一维度的的标准差就是对应特征值的开方(标准差是特征值的开方),所以可以做下面公式的处理:
公式中的是处理后的数据,是处理前的数据,是本维度数据对应的特征值。
- 实际中,如果选取的主成分多而且数据本身维度之间相关度较高,那么排在后面的特征值会很小,这样子处理后的数据就会过大,那么需要做如下处理:
数据中心的是一个很小的值,用以减小计算后的值,这个操作叫做白化