常常看到论文的标题里带有矩阵分解的方法,最常见的有四个PCA, SVD, LDA和NMF。之前看论文内容一看到矩阵公式基本就不看,水平有限,短期内啃也啃不动。看来该学的还是绕不出去,只能慢慢补上了…
很早就听说主成分分析这个名词了,看到一个人写的博文,写得通俗易懂,一看就能明白
本来想贴个我的WORD总结,后来发现公式图片太多了,就算了,
逻辑再重新梳理一下:
一、 首先冗余是指同一维度值都一样,没有区分度。噪声是指不同维度的线性相关性。这两个指标都可以用协方差计算公式cov(x,y)来表示。冗余用维度自己的协方差也可以表示 cov(x,x);所以恰好协方差矩阵这两个度都有了,对角线是cov(x,x), 其他地方是cov(x,y) )
二、 因此可以用协方差矩阵C 来判断一个样本矩阵S的冗余和噪声,但我们需要的是投影后的S1 它的协方差矩阵C1 具有比较好的性质。现在只有C,该怎么弄。
三、 于是就有了线代理论支撑的一个公式转换:可以找到 找到一个正交矩阵P,满足: 其中的就是特征值矩阵
(为啥可以这样,因为线代里有这么条定理:设A为n阶对称阵, 则必有正交阵P, 使 。其中是以 A 的n个特征值为对角元的对角矩阵,协方差矩阵是对称的嘛。这个定理也不是一下子就冒出来的,但我也没精力再走一遍了)。
四、 就算可以了,那么P是我们想要的东西吗? 答案是肯定的!
假设SP = X ,X的协方差矩阵就是。
于是 我们不需要保留整个P,而是挑选 上最大的p(p<d)个特征值对应的特征向量组成投影矩阵P1。 SP1=S1,S1的协方差矩阵C1 拥有对角线值较大,其他地方接近0的优质特点。
五、 最后,实现方法:直接对协方差矩阵C求特征值分解即可。
很建议去看看两篇博文,讲解得很细致~