文章目录
PCA
原理:
找方差最大的方向
大红色线点之间得距离大,方差会比较大
粉色线点之间得距离小,方差会比较小
大红色就是方差最大的方向??
有多少维的数据求出来的特征值就有几个,想降到几维就选取几个特征值(选大的),数据个数不变
累计方差贡献率
因为数据的方差表示了数据波动变化的信息。设想一摞数据的方差为0,那就是完全没有变化,没有研究价值。一般PCA用于降维,降维比然带来信息的损失,所以我们希望能够在减少数据维度的时候尽可能多地保存数据的信息。
可以证明,数据的方差等于协方差所有特征值之和,第i个主成分的方差等于协方差矩阵的第i个特征值。实际计算时,特征值从大到小排序,然后从前到后求和就得到累积方差。所以累积方差贡献率的大小表示了当前选择的所有主成分携带原数据的信息的比例。
作者: