一、数据降维
降维的方法包括:主成分分析(PCA)、因子分析(FA)、和独立成分分析(ICA)
主成分分析:寻找向量,使各个样本到该向量的投影之和最小。
因子分析:
独立成分分析:
二、PCA:目的是降维,降维的实际原理是最大化目标函数(数据投影后的方差最大)
强推原理博文:https://blog.csdn.net/fendegao/article/details/80208723
(1)假设有m个n维样本: {Z1,Z2,…,Zm}
(2)样本中心 u 为: 所有样本观测值之和/(mxn)
(3)去中心化后,得到矩阵 {X1,X2,…,Xm}={Z1-U,Z2-U,…,Zm-U}
(4)记含有n个元素的向量W,则样本X1在w方向上的投影为二者内积 X1 . W
(5)PCA的目标函数为最大化投影
目标方程可以化为矩阵形式求解,求解方法:
(1)构建拉格朗日算子,求导为0,解得投影最大的向量为特征值最大对应的特征向量。
根据特征值的累计贡献率可以指定选取多少个W向量作为K-L变换矩阵。若选择了4个主成分,则对于每一个n维度样本,经过矩阵变换后,都变为了(1xn)x(nx4)=1x4维向量,即