OLS,PCA,CCA,PLS和CR的关系总结及几何解释

本文链接：https://blog.csdn.net/billy145533/article/details/108145736

文章目录

总结一下这几个常见的模型之间的关系，主要关注单响应变量的情况

Ordinary Least Squares（OLS）

最小二乘法是一种常见的回归模型
$\mathbf{y} = X\mathbf{\beta} = \beta_1\mathbf{x_1}+\dots+\beta_n\mathbf{x_n}\\ \hat{\beta} = arg \ \underset{\beta}{min} \ ||y-X\beta||^2 \tag{1} \\ \hat{\beta} = (X^TX)^{-1}X^T\mathbf{y}$

在这里插入图片描述

从几何意义来看，OLS是将 $\mathbf{y}$ 正交投影到 $X$ 的列空间，得到 $\mathbf{y}_p$ ,这部分内容可以由 $X$ 的列线性表示，而 $\mathbf{y}_e$ 正交于 $C o l (X)$ 。从上图也可以知道， $\mathbf{y}_p$ 是 $X$ 列空间所有向量里与 $\mathbf{y}$ 的夹角是最小的。

Canonical Correlation Analysis（CCA）

典型相关分析主要是分析两组数据之间最相关的成分。

典型相关分析目标是找到投影轴w和c，使得Xw和Yc之间的相关性达到最大

$\ \underset{w,c}{max} \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \Leftrightarrow arg \ \underset{w,c}{max} \ cos(Xw,Yc)^2 \tag{2}$

$G_{cca} = \frac{[(Xw)^T(Yc)]^2}{||(Xw)||^2||(Yc)||^2} \ \in [0,1]$
在单响应变量的时候，上式变为
$\hat{w} = arg \ \underset{\hat{w}}{max} \ \large{ \tfrac{||y^TXw||}{||y||*||Xw||}}=arg \ \underset{\hat{w}}{max} \tfrac{(y^TXw)^2}{(y^Ty)(w^TX^TXw)} \tag{3} \\ s.t. \ ||w^TX^TXw||=1$
$G_{cca} =\tfrac{(y^TXw)^2}{(y^Ty)(w^TX^TXw)}$ ,由Cauchy-Schwartz不等式可知， $G_{cca} \in [0,1]$
对原目标化简，再使用拉格朗日乘子法对w进行求解得到
${\mathcal L} = (y^TXw)^2+\lambda(w^TX^TXw-1)^2 \tag{4}$
两边求对 $w$ 求导,整理得到
$X^Tyy^TXw = \lambda X^TXw \tag{5}$
两边乘以 $w^T$ ，得到 $\lambda =(w^TX^Tyy^TXw)\in\mathbb{R}$

令 $w_{OLS}= \large { \tfrac{\hat{\beta}}{y^TX(X^TX)^{-1}X^Ty}}$ ,可以容易发现 $w_{OLS}$ 满足公式6，也就是是说CCA的解 $w_{cca}=w_{OLS}\propto \hat{\beta}$ ，也就是说其实OLS和CCA在单响应变量时，其目标可以说是一致的。

从几何意义上解释更直观一些，两个向量的相关性越大，其夹角越小。因此，OLS和CCA在单相应变量时，两者的目标是一致的。

Principal Components Analysis (PCA)

PCA的思想是找到数据代表的最大方差方向，假定此方向包含了最多的数据信息。
在这里插入图片描述

这个方向的确定很容易，即 $X^TX$ 的最大特征向量
$\hat{w} = arg \ \underset{\hat{w}}{max} \ w^TX^TXw =arg \ \underset{\hat{w}}{max} \tfrac{w^TX^TXw}{[\rho(X^TX)]^2} \tag{6}\\ s.t. \ ||w^T w||=1$
令 $G_{pcr} = \tfrac{w^TX^TXw}{[p(X^TX)]^2}$ , $G_{pcr} \in [0,1]$
对比OLS和PCA可以发现，前者的目标是使得 $G_{cca}$ 最大化,后者是使 $G_{pcr}$ 最大化。在实际应用中，两个目标往往难以同时达到最大。

Partial Least Squares (PLS)

OLS只关注拟合效果，容易导致过拟合的问题。PCA是一种无监督的数据提取方法，泛化能力好于OLS，有时会引起欠拟合的问题。PLS的出现可以较好的平衡好两者的关系的，它的目标是找到一个权值w使得，Xw和y的协方差最大，见PLS的目标式子
$\hat{w} = arg \ \underset{\hat{w}}{max} \ (y^TXw)^2 =arg \ \underset{\hat{w}}{max} (\tfrac{ (y^TXw)^2}{y^Tyw^TX^TXw})(\tfrac{ (w^TX^TXw)}{[\rho(X^TX)]^2} )(y^ty) =arg \ \underset{\hat{w}}{max} \ G_{cca}G_{pcr} \tag{7}\\ \\s.t. \ ||w^T w||=1$
更直观地，可以将单响应变量的PLS的平衡是看作CCA和PCR之间的一种折中。当然，这也绝非最佳的折中方式，但至少可以保证，这是一种最不坏地方式。

Continuum Regression (CR)

PLS 只是 OLS和PCA之间一种特殊的平衡点，将这种平衡泛化就得到了CR
$\hat{w} =arg \ \underset{\hat{w}}{max} \ (G_{cca})^{\alpha}(G_{pcr})^{1-\alpha} \tag{8}\\ \\s.t. \ ||w^T w||=1，\alpha \in (0,1)$

CR包含了OLS（ $\alpha=0$ ），PLS（ $\alpha=0.5$ ），PCA（ $\alpha=1$ ）

OLS,PLS,PCA 和CR关系

下图中，对于所有的 $∣ ∣ w ∣ ∣ = 1$ , $X w$ 构成了一个超椭球面，我们可以找到CCA，PLS，PCR的权值方向，相应的潜在变量为 $t_{cca},t_{pls},t_{pcr}$

这里有一个有趣的几何关系。对 $t_{cca}$ 做一个垂直的线且正切于椭圆，这个切点到圆心的位置就是 $t_{pls}$ 。CR所有可能的点位于 $t_{cca},t_{pcr}$ 之间，下图蓝色表示的部分。关于为何有这样的几何性质，可以看一下提供的参考文献

在这里插入图片描述

Continuum Regression 再泛化

假设CR的潜在变量数目为 $l$ ,可以看到CR的所有潜在变量的收缩因子 $\alpha$ 都是相同的，这完全是不必要的。参考文献里面用到了一种方法实现了CR的再泛化,设置收缩向量因子 $\boldsymbol{\alpha}\in\mathbb{R}^{l\times1}$ ，为每一个潜在变量设置不同的收缩因子
$\hat{w_i} =arg \ \underset{\hat{w_i}}{max} \ (G_{cca})^{\boldsymbol{\alpha}_i}(G_{pcr})^{1-\boldsymbol{\alpha}_i} \tag{9}$
为了找到最优的 $\boldsymbol{\alpha}$ ，采用了遗传算法。
以上内容的具体细节见以下的参考文献