PCA 注释与延伸

PCA  过程理解与延伸:

    1.所作主成分提取。由于M=USV'.中的S中,取奇异值较大的前K个得到S1,并对U,V进行削减得U1,V1。然后有M1=U1*S1*V1'.由于M所构成的空间的维数和M的秩是相同的,又等同于S1的秩及奇异值的个数。而S1的秩小于S的,故此M1的维度也是小于M的。进而达到了降维。应用:数据的去噪!  这里面有较强的假设:(1)特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声,但实际上,向小一点的特征根方向投影也有可能包括我们感兴趣的数据; (2)特征向量的方向是互相正交(orthogonal)的,这种正交性使得PCA容易受到Outlier的影响。例如在建立线性回归模型(Linear Regression Model)分析因变量(response)和第一个主成份的关系时,我们得到的回归系数(Coefficiency)不是某一个自变量(covariate)的贡献,而是对所有自变量的某个线性组合(Linear Combination)的贡献。

2. 通过上述过程,得M1*V1=U1*S1.由于V1是M1’*M1的特征向量按特征值的降序排列的矩阵,此式子表示将M1映射至M1’*M1的特征空间中,进而实现了矩阵降低列的数目的目的!当我们做降维时,可以d利用前K个特征向量U={u1,u2,u3.....}。将一个d维的向量xi投影至k个主成分所构成的空间中,yi=U'*xi。每一个u1所代表的是一个投影方向。

3.上面段落中描述的过程和模式识别中的FIsher判别有相似的地方。由于上面过程取得的U是较大特征值对应的特征向量组成的矩阵,而较大特征值表征的意思是将数据投影至该特征值对应的特征向量的方向上会取得较大的variance,即我们所说的,投影之后依然有较大的信息量。Fisher判别中所拟合的投影线段所要求是投影之后有最大的various,以方便对数据的分类。 在CCA典型相关分析中我们一般对不同维度进行线性拟合之后对不同样本进行相关性分析时,所依据的原理是求相关性最大即pearson相关系数最大,和这里的在本质上有了些许的差别!而在svm中的分类中,我们使用的是对数据进行升维,然后进行分类面的寻找。这和2中所说的是一个相反的过程了!

 

4.协方差矩阵的特征向量矩阵就是这里的V,而协方差矩阵表征的是不同维度之间的相关性,所以特征空间所表征的就是维度之间的相关性的特征空间,对样本xi,进行变换V,则表示的是将该样本进行去相关的操作,即变换之后的样本在不同纬度之间是没有相关性的!

 5.我们谈到的PCA是对svd分解的一种包装,从对人脸识别领域的PCA应用学习中,我们得到,PCA直接作用的对象不是我们讲的样本,而是诸如样本的协方差矩阵,具体应用到实际中,通过作用在协方差矩阵上,求出人脸的特征空间,然后将我们的测试样本和库中的样本分别映射到特征空间中进行比较!

在此,感谢孟岩老师的文章《理解矩阵》给了我很大的帮助,诚心谢谢!

 ——————————————————————————————————————————————————————————————————————————————

时隔良久对pca当中的东西有了一些深入的认识,自己写起来就显得麻烦直接将别人的东西粘贴拉倒,

1. PCA可以降维,那让我们联想到了之前说过拟合问题是由维度过高或者参数过多造成的,那么可不可以用PCA解决overfitting的问题呢?

Ans:NO!应用PCA提取主成分可能会解决一些overfitting的问题,但是呢,不建议用这种方法解决overfitting问题,还是建议用第三章中讲过的加入regularization项(也称为ridge regression)来解决。


2. PCA中主成分分析应用到那部分数据呢?

Ans:Only Training Data!可以用Cross-Validation data 和 test Data进行检验,但是选择主分量的时候只应用training data.

(个人注解:在降维采用的转换矩阵U是由training data得到,应用是在Cross-Validation data 和 test Data上的!

3. 不要盲目PCA

Notice:only 当你在原数据上跑到了一个比较好的结果,又嫌它太慢的时候才采取PCA进行降维,不然降了半天白降了~


送上链接:Rachel_Zhang,http://blog.csdn.net/abcjennifer/article/details/8002329

还是推荐区读读这篇文章,但是里面有一些需要交代的,单个向量进行降维,


这里的U,为什么能够达到这样的效果? U是协方差矩阵的平方的特征向量经过筛选之后的矩阵。信息量越大表现为方差越大,在空间中,特征向量表示的是空间的基,在协方差所构成的空间中,每个基所表示的就是信息量的某一维度,特征值表示的是这些数据在这一维度上的尺度大小。故此,U的筛选就是信息量的筛选,图片中的公式就可以解读为,按照信息量大小进行的空间向量转换!      2014/10/30

 ——————————————————————————————————————————————————————————————————————————————

又看到了这个东西啊!

    上面对U的解释还不是很清楚!上面的链接中,它在说明U的时候,提到“由于方阵的SVD相当于特征值分解,所以事实上U = V, 即Σ = USU', U是特征向量组成的正交矩阵”。这一点。真的让我走了不少的冤枉路,这句话的描述应该改为“由于方阵的SVD相当于方阵被特征向量酉对角化即Σ = USU',U就是Σ的特征正交矩阵(这点学过矩阵对角化的都懂得)”,接下来进行降维就理所当然。深刻理解,特征向量的酉对角化就是特征值分解(此处U^-1=U'),当是半正定时,就是奇异值分解了。具体的维基百科上的描述:

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

M是一个正规矩阵(因而必须是方阵)根据谱定理M可以被一组特征向量酉对角化,所以它可以表为:

M = U D U^*

其中U为一个酉矩阵,D为一个对角阵。如果M半正定的,M = U D U^*的分解也是一个奇异值分解。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

    还要十分强调,这种降维是将数据转换到其他的空间中,与之前空间之间没有直接的联系,在树枝上是没有多少相似之处的。

在做降维的时候,(x-u)和选择后的U进行相乘达到降维。   在做人脸识别时,转换后的空间,我们叫做特征脸空间,识别的过程就是将库中的脸和test脸映射入特征脸空间之后进行比较。

参考:

     http://www.cnblogs.com/begtostudy/archive/2010/09/05/1818564.html       酉对角化

     http://zh.wikipedia.org/wiki/%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3  奇异值分解

     http://zh.wikipedia.org/wiki/%E9%85%89%E7%9F%A9%E9%98%B5       酉矩阵

     http://blog.csdn.net/abcjennifer/article/details/8002329       Stanford机器学习---第十讲. 数据降维

     http://www.tuicool.com/articles/AVvMzu              PCA 降维算法详解 以及代码示例 

     2014/11/13

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值