偏最小二乘法的几种解释

最新推荐文章于 2024-06-04 08:00:00 发布

billy145533

最新推荐文章于 2024-06-04 08:00:00 发布

阅读量5.8k

点赞数 6

分类专栏：偏最小二乘法文章标签：偏最小二乘法 PLS 几何解释

本文链接：https://blog.csdn.net/billy145533/article/details/109125949

版权

偏最小二乘法专栏收录该内容

13 篇文章 30 订阅

订阅专栏

文章目录

前面的文章
基础准备
第一种解释
第二种解释
第三种解释
第四种解释
总结
参考文献

经过一段时间的学习，对偏最小二乘法有了一些了解，这里做一个总结。下面主要是针对PLS1，也就是单响应变量的情况

前面的文章

基础准备

最小二乘法的几何意义

$\mathbf{y} = X\mathbf{\beta} = \beta_1\mathbf{x_1}+\dots+\beta_n\mathbf{x_n} \tag{1}$
在这里插入图片描述
找到一个 $X$ 的列的线性组合，使得这个线性组合最多的表达 $y$ 中的信息。由上图可知， $y = y_p+y_e$ .当 $y_e$ 正交于 $X$ 列空间时，达到最小，此时， $y_p$ 与 $y$ 的夹角最小，即相关性最大。普通最小二乘法（OLS）的解如下
$\hat{\beta}=(X^TX)^{-1}X^Ty$

典型相关分析

典型相关分析是从两组数据 $X$ 和 $Y$ 中，找到两个相应的组合，使得两者相关性最大。其目标如下
$\ \underset{w,c}{max} \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \Leftrightarrow arg \ \underset{w,c}{max} \ cos(Xw,Yc)^2 \tag{2}$

$G_{cca} = \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \ \in [0,1]$

在单响应变量的情况下，则有 $X w$ 和 $y$ 的相关性最大，则可以得到

$\propto (X^TX)^{-1}X^Ty$

主成分分析

PCA的思想是找到数据 $X$ 中代表最大方差方向的权值，通过减秩消除矩阵中的无关信息
在这里插入图片描述
这个方向的确定很容易，即 $X^TX$ 的最大特征向量
$\hat{w} = arg \ \underset{\hat{w}}{max} \ w^TX^TXw =arg \ \underset{\hat{w}}{max} \tfrac{w^TX^TXw}{[\rho(X^TX)]^2} \tag{3}\\ s.t. \ ||w^T w||=1$
令 $G_{pcr} = \tfrac{w^TX^TXw}{[p(X^TX)]^2}$ , $G_{pcr} \in [0,1]$
对比OLS和PCA可以发现，前者的目标是使得 $G_{cca}$ 最大化,后者是使 $G_{pcr}$ 最大化。在实际应用中，两个目标往往难以同时达到最大。

第一种解释

$\color{red}{PLS可以看作是CCA和PCA的一个折中。}$
PLS是一种数据减秩的方法，跟PCA类似，是用原数据的部分数据（成分）代替原始数据。构造成分的方法和CCA，PCA不同之处在于，PLS是两者的一个平衡点，由下面的目标式可以清楚得看到。
$\hat{w} = arg \ \underset{\hat{w}}{max} \ (y^TXw)^2 =arg \ \underset{\hat{w}}{max} (\tfrac{ (y^TXw)^2}{y^Tyw^TX^TXw})(\tfrac{ (w^TX^TXw)}{[\rho(X^TX)]^2} )(y^ty) =arg \ \underset{\hat{w}}{max} \ G_{cca}G_{pcr} \tag{4}\\ \\s.t. \ ||w^T w||=1$
更直观一些看下图，假设 $∣ ∣ w ∣ ∣ = 1$ ，对于所有的可能的点 $X w$ ，构成了如下的的超椭圆空间。CCA,PCR，PLS在成分或者说得分向量的构造方式上存在以下的几何关系。
在这里插入图片描述
具体可以看参考文献部分

第二种解释

$\color{green}{PLS是一种共轭梯度法}$
在这里插入图片描述
上图中，左边是最速下降法的优化路径，右图是共轭梯度下降法的优化路径。可见，共轭梯度法的效率要远高于最速下降法的速率。直观得看，最速下降法的缺点在走回头路，导致收敛速度缓慢，共轭梯度法的特点保证了其不走回头路，所以，收敛的速度是有保障的。所谓共轭，就是权值方向满足
$w_i^TX^TXw_j=0,i \neq j \tag{5}$
这个的证明可以看前面的文章。无论是NIPALS（基于残差），SIMPLS（基于载荷矩阵正交投影）这一点都是可以满足的。

从几何的角度来看，构造共轭正交的权值，是为了保证得分向量 $t = X w$ 的正交性，因为得分矩阵 $T$ 最终代替X，响应变量 $y$ 最终通过将自身投影到 $T$ 的空间中，获得 $y$ 和 $T$ 的回归关系。如下图所示， $t$ 是两两正交的，新增的 $t_i$ 不影响原来 $y$ 在其他 $t_j,j<i$ 上的投影, $y$ 因此一定是收敛的。
在这里插入图片描述

第三种解释

$\color{blue}{PLS是一种基于Krylov空间降维打击的方法。}$

尽管Krylov空间和共轭梯度法是密不可分的，这里还是单独从这个角度谈谈。
Krylov subspaces 子空间的形式如下
$K_q = span(s,Ss,S^2,\dots,S^{q-1}s) \tag{6}$
KryLov空间常用于求解大型矩阵的逆
$\Rightarrow x = A^{-1}b\\ A^{-1}b \approx \beta_0b+\beta_1Ab+\beta_2A^2b+\dots+\beta_rA^rb=\sum_{i=0}^{r}\beta_iA^ib \tag{7}\\ A^ib\ can\ be\ obtained\ by \ Jacobian\ Free\ Newton\ Krylov\\ A(\sum_{i=0}^{r}\beta_iA^ib) = b\Rightarrow A^{-1}b$
和PLS的关系

$\ s= X^Ty ,S = X^TX \\ for\ all \ w_i^*,i \in (1,r)\ span\ space\ K_r\\ K_r = span(s,Ss,S^2s,\dots,S^{r-1}s) \\ t_i = Xw_i^*\\ \\\hat{y}=X \hat{\beta} =\lambda_1t_1+\dots+\lambda_rt_r^* \Rightarrow\\\tag{8} \hat{\beta}_{PLS} = \lambda_1w^*_1+\dots+\lambda_rw_r^* =\sum_{i=0}^{r-1}\beta_iS^is$

只要 $r$ 足够大， $\hat{\beta}_{PLS} \rightarrow \hat{\beta}_{OLS}$

第四种解释

$\color{#fbbc05}{最大化信噪比方向}$
Maximinze Signal-To-Noise Ratio(SNR)体现了PLS在权值w上的选取意义
PLS的解是是有偏估量，本质上是以无偏估量 $\beta_{OLS}$ 解作为信号，以最大化信噪比的方向去提取 $\beta_{OLS}$ 中的信息，构造近似的解。
按照有偏估量的计算，可以得到如下方程
$\ \underset{w_q }{max} \ \frac{|w^T\hat{\beta}_{OLS}|}{\sigma\sqrt{w^T(X^TX)^{-1}w}}\Leftrightarrow arg \ \underset{w_q }{max} \ cos(w,\hat{\beta}_{OLS})^2w^T(X^TX)w ,\tag{10}\\ \ s.t. \ w_q \perp (w_1,w_2,\dots,w_{q-1})$
看上面左边的公式，分子部分代表了相关性，即信息最大，分母部分代表了噪声的估计量。两者结合在一起就是信噪比，这和PLS的目标是一致的。
对上式重写，可以转换为如下的形式
$\ \underset{w_q }{max} \ |w_q^T\hat{\beta}_{OLS}| , s.t. \ w_q \perp (w_1,w_2,\dots,w_{q-1}), \ w_q^TS^{-1}w_q=1$

$\lambda_qw_q = -s - \sum_{i=1 }^{q-1}\lambda_i*S*w_i \Rightarrow \hat{\beta}_{PLS} = \lambda_1w_1+\dots+\lambda_rw_r$

总结

偏最小二乘当然还有许多其他的解释，这里不再一一介绍。一直以来，偏最小二乘法总是偏向于直觉，而缺乏坚实的理论而受到诟病，特别是统计学界。另外，目前的文献资料显示，偏最小二乘法的解绝并非统计学意义上的最优解，这一点已有诸多文献讨论并且做出相关证明。但由于其在小样本，高维共线的领域里出色效果，在化学计量，经济计量等受到广泛的应用。这里主要是将自己对偏最小二乘法的理解总结一下，以后大概不会再写普通的偏最小二乘法，更多地是讨论一下改进的偏最小二乘法，如稀疏，鲁棒等版本的偏最小二乘模型。

参考文献

Optimizing a vector of shrinkage factors for continuum regression

billy145533

关注

6
点赞
踩
62

收藏

觉得还不错? 一键收藏
2
评论
偏最小二乘法的几种解释

文章目录基础准备最小二乘法的几何意义典型相关分析主成分分析第一种解释经过一段时间的学习，对偏最小二乘法有了一些了解。下面主要是针对PLS1，也就是单响应变量的情况基础准备最小二乘法的几何意义y=Xβ=β1x1+⋯+βnxn\mathbf{y} = X\mathbf{\beta} = \beta_1\mathbf{x_1}+\dots+\beta_n\mathbf{x_n}y=Xβ=β1x1+⋯+βnxn找到一个XXX的列的线性组合，使得这个线性组合最多的表达了yyy中的信息由上图可知，
复制链接

扫一扫