偏最小二乘回归（PLSR）算法原理

最新推荐文章于 2025-03-26 11:26:25 发布

flyingliufan

最新推荐文章于 2025-03-26 11:26:25 发布

阅读量6.8w

点赞数 35

分类专栏：数学文章标签：偏最小二乘回归 PLSR 算法原理

本文链接：https://blog.csdn.net/flyingliufan/article/details/48715537

版权

数学专栏收录该内容

3 篇文章

订阅专栏

1、问题的提出

　　在跨媒体检索领域中，CCA（Canonical correlation analysis，典型关联分析）是应用最为广泛的算法之一。CCA可以把两种媒体的原始特征空间映射映射到相关的两个特征子空间中，从而实现两个属于不同媒体的样本之间的相似性的度量，这也是CCA实现跨媒体检索的理论基础。
　　但是CCA也有其局限性，其中之一就是对特征的处理比较粗糙，不妨假设来自两种媒体的一组训练样本对的原始特征矩阵为X和Y，则CCA只是以映射后特征相关性最大为原则把 $X$ 和 $Y$ 分别映射为 $X_1$ 和 $Y_1$ ，而在 $X$ （ $Y$ ）映射到 $X_1$ （ $Y_1$ ）的过程中很可能会丢失原始特征矩阵 $X$ （ $Y$ ）中的一些信息。此外，CCA只是寻找投影后的 $X_1$ 和 $Y_1$ 的关系，而不能通过该关系还原出 $X$ 和 $Y$ 。
　　为了解决上面提到的CCA算法的一些缺点，可以使用PLSR（Partial Least Squares Regression，最小二乘回归）算法。PLSR是一种多因变量Y对多自变量X的回归建模方法，该算法在建立回归的过程中，既考虑了尽量提取Y和X中的主成分（PCA—Principal Component Analysis，主成分分析的思想），又考虑了使分别从X和Y提取出的主成分之间的相关性最大化（CCA的思想）。简单的说，PLSR是PCA、CCA和多元线性回归这三种基本算法组合的产物。下面将进一步探讨PLSR的算法原理。

2、算法实现

　　设原始特征数据 $X_0$ 为Ｎｘｍ维矩阵， $Y_0$ 为Ｎｘｎ维矩阵，即共有Ｎ个样本对， $X_0$ 中样本特征为ｍ维， $Y_0$ 中样本特征为ｎ维。而Ｘ和Ｙ是原始数据经过标准化（减均值、除以标准差等）之后生成的数据。设X和Y的第一个主成分轴向量分别为 $w_1$ （m x 1维）和 $c_1$ （n x 1维）（两者均为单位向量，且两者不是由PCA求出的主轴，目前都只是变量，具体的值要到后面求解），则由 $w_1$ 和 $c_1$ 可以表示出X和Y的第一对主成分 $t_1$ 和 $u_1$ ，其中 $t_1 = X*w_1, u_1 = Y*c_1$ 。
　　根据上面的假设，CCA的求解思想是使 $t_1$ 和 $u_1$ 之间的相关性最大化，即 $Corr(t_1,u_1) \rightarrow max$ ；而PCA的求解思想是分别使 $t_1$ 和 $u_1$ 各自的方差最大，即 $Var(t_1) \rightarrow max, Var(u_1) \rightarrow max$ 。综合上面两种思想，即PLSR的求解思想，即 $Cov(t_1,u_1)=\sqrt{Var(t_1)Var(u_1)}Corr(t_1,u_1) \rightarrow max$ 。数学上可以形式化如下：
　　
　　 $Maximize<Xw_1,Yc_1>$ ， Subject to : $||w_1||=1,||c_1||=1$

　　可以通过引入拉格朗日乘子的方法求出 $w_1,c_1$ ，求解细节参考博客“偏最小二乘法回归”[1]，最后可解得， $w_1$ 是对称矩阵 $X^TYY^TX$ 的最大特征值对应的特征向量， $c_1$ 是 $Y^TXX^TY$ 的最大特征值对应的特征向量。在求出了 $w_1,c_1$ 后，可以求得 $X,Y$ 的第一对相关的主成分 $t_1,u_1$ 如下：

　　 $t_1=Xw_1,u_1=Yc_1$

　　根据主成分回归思想可以把 $X,Y$ 分别对它们的主成分 $t_1,u_1$ 进行回归建模如下：

　　 $X = t_1p_1^T + E$
　　 $Y = u_1q_1^T + G$
　　
　　这里的 $p_1,q_1$ 不同于 $w_1,c_1$ ，但它们之间有一定的关系，而 $E,G$ 为残差矩阵。因为直接用上面两个式子还是无法建立 $X,Y$ 之间的关系，所以在此利用 $t_1,u_1$ 之间具有相关性这一情况把 $Y$ 改为对 $X$ 的主成分 $t_1$ 进行回归建模如下:
　　
　　 $Y=t_1r_1^T + F$
　　
　　对于上面三个回归方程，可以用最小二乘法计算出 $p_1,q_1,r_1$ 如下：
　　
　　 $p_1=\frac{X^Tt_1}{||t_1||^2}$
　　
　　 $q_1=\frac{Y^Tu_1}{||u_1||^2}$
　　
　　 $r_1=\frac{Y^Tt_1}{||t_1||^2}$
　　
　　从上面求出的结果可以推导出 $w_1,p_1$ 之间的关系为：
　　
　　 $w_1^Tp_1 = w_1^T\frac{X^Tt_1}{||t_1||^2}=\frac{t_1^Tt_1}{||t_1||^2}=1$
　　
　　其中 $w_1$ 是 $X$ 投影出 $t_1$ 的方向向量，而 $p_1$ 在回归思想（使残差E尽可能小）下根据最小二乘法求出的，两者之间一般不是相同的关系。之后将 $X$ 中主成分 $t_1$ 不能解释的残差部分 $E$ 作为新的 $X$ ， $Y$ 中主成分 $t_1$ 不能解释的残差部分 $F$ 作为新的 $Y$ ，按照前面的方法进行回归，循环往复，直到残差 $F$ 达到精度要求，或者主成分数量已经达到上限（初始 $X$ 的秩），算法结束。设最后共有k个主成分，则一系列向量可表示为 $w_1,w_2,...,w_k;c_1,c_2,...,c_k;t_1,t_2,...,t_k;u_1,u_2,...,u_k;r_1,r_2,...r_k$ ，其中下标不同的 $t_i,t_j$ 是相互正交的， $w_i,w_j$ 也是正交的，但 $p_i,p_j$ 一般不是正交的（这也是与PCA的表达式中不同的地方）。最终可将原始 $X,Y$ 表示为：
　　
　　 $X=t_1p_1^T+t_2p_2^T+...+t_kp_k^T+E$
　　 $Y=t_1r_1^T+t_2r_2^T+...+t_kr_k^T+F$
　　
　　利用 $w_i^Tt_j=1(i=j),w_i^Tt_j=0(i\neq j)$ 的关系可以把上面的公式写成矩阵的形式如下：
　　
　　 $X = TP^T+E$
　　 $Y=TR^T+F=XWR^T+F=XA+F$ ，即 $X\rightarrow Y$ 的回归方程，其中 $A=WR^T$
　　
　　在算法过程中把计算得出的 $W,R$ 的值收集好就可以利用PLSR进行预测，即对于新输入的一条数据 $x$ ,首先利用 $W$ 计算各个主成分，即 $t_1=x^Tw_1,t_2=x^Tw_2,...,t_k=x^Tw_k$ ，然后代入 $y=t_1r_1^T+t_2r_2^T+...+t_kr_k^T$ 即可求出向量 $y$ 的预测值，或直接代入 $y^T=x^TA$ 进行求解。
　以上便是PLSR算法实现的主要步骤。