简单讲:PCA是一个降维的过程,ICA则是帮助你从多个维度分离有用数据的过程。
特征降维:去掉可分性不强和冗余的特征
经过X的降维转换Z = XU,X 是 m × n 的矩阵, U 是 n × k 的矩阵,Z 是 m × k 的矩阵,就得到X降维后的降维矩阵Z。
Z的shape=(m, k),记住这里的降维是降低样例的特征维度,所以Z的shape=(m, k),其中m还是样本矩阵的样例总数,k是降维后的特征维度总数。
1.PCA主成分分析原理
PCA的主要支撑理论是协方差以及协方差矩阵,协方差等知识点详见以前文章的介绍:【机器学习】【线性代数】均值,无偏估计,总体/样本方差,样本标准差,矩阵中心化/标准化、协方差,正/不/负相关等,协方差矩阵
在信号处理中认为信号具有较大的方差,噪音有较小的方差,信噪比就是信号与噪音的方差比,信噪比越大越好。
2.PCA原理和PCA降维原理
此部分先关图形来自:https://www.jisilu.cn/question/252942
PCA降维原理是基于训练数据集X的协方差矩阵C的特征向量组成的K阶矩阵U,XU得到X的k阶降维矩阵Z。
主要原理用的是协方差矩阵C是一个实对角矩阵的性质!!!!
用到的最重要的性质是:实对角阵的不同特征值对应的特征向量是正交的!!!
再结合训练样本集X的理想降维矩阵的特点:每个维度特征线性不相关,即每个维度特征的协方差=0。
利用以上知识就得到PCA降维的公式啦~~~~,详细推导过程见下所示:
2.1训练样本集
样本集X=m×n矩阵,表示m个样例,n个特征维度