PCA(principal components analysis)即主成分分析技术,又称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。
% 假设现在用PCA将二维数据(即只有x轴和y轴)降为1维(只有1根坐标轴),
% 去中心化后,我们需要找到一条过原点的新的坐标轴,使数据与这条新轴的拟合度最高
% 即这些数据在这条轴上的投影的方差需要最大
% 从而使得在只保留这一根轴而去掉其它的坐标轴的情况下,数据的信息保留得最多
% 而这根新的轴就叫做 主成分
% 当然,有些数据并不止2维,比如图片就有多维,也就意味着要保留多个主成分
%
% 那么如何找到这些新的轴(主成分)呢?
% 先将数据去中心化
% 再求出数据的协方差矩阵的特征值和特征向量
% 协方差矩阵的特征值代表的是数据在 新的坐标轴(主成分) 上的投影的方差
% 协方差矩阵的特征向量代表的是 新的坐标轴(主成分)相对于原坐标轴的的方向
% 协方差矩阵有几个特征值,数据就有多少个主成分
% 我们将这些特征值降序排列,从最大的特征值开始逐项相加,同时计算 累加值 占 所有特征值的和 的比例
% 这个比例称之为累积贡献度,当累积贡献度达到我们设定的阈值时停止累加,保留这些累加的特征值而舍去剩下的
% 从而实现PCA的降维效果
%
% 详细案例可参考视频:
https://www.bilibili.com/video/BV1E5411E71z/?spm_id_from=333.337.search-card.all.click