很多人学习PLS之前是从PCR入手的,我个人认为这是PLS不错的打开方式,PCR和PLS主要区别是两者在权值W的选择上有本质的区别。
PCR的权值选择是基于X本身的特征向量,而PLS则根据X‘Y的特征向量来选择。PLS早在80年代就已经提出来,当时计算特征向量并不像今天这么容易,随便调用一个SVD就行。当时求特征向量是通过幂法得到,所以,在PCR和PLS中都能找到NIPALS算法,这个迭代算法主要是用于计算特征向量。事实上,今天我们调用的SVD算法仍然是基于这种办法,只不过做了很多改进,我们也无需去关注算法的原理与细节,只要得到我们想要的结果即可。
我们都知道,PCR让人很舒服的地方在于权值和载荷是一样的,我们先看一些SVD分解
W是酋矩阵,对于PCR来说,W是X的各个特征向量,同时它各个成分是相互正交,这就保证了每一个得分与后面残差保持了正交的关系。
对于任意都满足以下条件
由于V是的特征向量
由于W=V,则有
满足相互正交,且关于共轭正交,这也保证了每一个得分与其之后的残差矩阵保持正交的关系。
然而对于PLS而言,就没那么幸运了。举例而言,PLS1为例,,可以看出,这个权值其实正比于X和y的协方差,它基本上不是的特征向量。说到这里,理由还并不充分。
因为对于PLS而言 ,
姑且查看的关系
从求权值的过程来看,显然都不是的特征向量,所以其正交的可能性不大,并非说一定不可能,由上式可以得到
欲令上式等于0,只要满足,由此得到,是不是很眼熟,这不正是载荷p的转置吗。好了,上面说了这么多,就是为了说明为什么载荷不能直接用权值代替的原因,说得不是特别透彻,大致应该可以理解了。
那么p之间是否存在正交的关系呢,答案是否定的。对于不同的p向量,则有如下关系
我们只需要观察是否为0,从形式来看,t显然不是的特征向量,所以难以保证上式为0,但并非说一定不为0
由于t一直在E0的列空间内,所以t在E0空间上的投影还是自身,因此有
由此可以推得
p关于空间是正交的,也称为共轭正交
到了这里,我们对于p和w之间已经有了不少的认识,下面总结一下p和w之间的关系
当i相同时,p在w上投影值为单位长度1,注意到,这二者存在什么关系呢
将p分解为w的投影部分和正交部分
计算p的投影部分 ,由此可见,p包含了两部分内容,正交部分刚好弥补了w的不足
在展开w和p的关系前,先讨论了一下E和w之间的关系
对于任意j>i
由上述可以得到
有了这些信息,后面可以就p和w之间接着展开讨论
当j>i时,则有
也就是说权值w与后续的载荷p是其正交的。w和p的关系就说到这里了,以后有想到再补充。
后记: 经过一段时间对PLS的继续学习,理解更加深入后,对w和p重新做了一段整理,详情见该文章
https://blog.csdn.net/billy145533/article/details/103482611
参考
主元分析与偏最小二乘法