偏最小二乘回归
- 考虑自变量有多个,因变量只有一个时候的回归,当自变量的多重相关性差的时候,可以直接使用最小二乘求解回归模型;
- 考虑自变量有多个,因变量只有一个时候的回归,当自变量的多重共线性强的时候,可以对自变量做主成分分析,然后使用主成分作为新的自变量,再使用最小二乘求解回归模型;
- 考虑自变量有多个,因变量也有多个的时候的回归,如果自变量和因变量都不存在多重共线性的时候,可以分别使用自变量对每一个因变量做回归,使用最小二乘求解;
- 考虑自变量有多个,因变量也有多个的时候的回归,如果自变量存在多重共线性,因变量不存在多重共线性的时候,可以对自变量做主成分分析,然后使用主成分作为新的自变量分别对每一个因变量做回归,使用最小二乘求解;
- 考虑自变量有多个,因变量也有多个的时候的回归,如果自变量和因变量都存在多重共线性的时候该怎么办呢,这时候还是使用主成分分析+分别对每个变量做回归吗?
偏最小二乘提供一种多对多的线性回归建模方法,即自变量有多个,因变量也有多个的时候的建模方法,尤其适用于自变量和因变量都存在多重共线性的情况。
偏最小二乘在建模过程中集中了主成分分析、典型相关分析和线性回归分析方法的特点。
算法思想
- 主成分分析是求解组内方差最大的主成分,在求解主成分的时候,它控制了变换向量的范数;
- 典型相关分析是求解组间相关性最强的典型变量,在求解典型变量的时候,它控制了变换后的组内方差;
- 回归方程特点是能做回归预测,它是基于自变量数据输入得到因变量的预测值。
偏最小二乘回归最终是回归,它也是使用原始自变量变换后的变量做回归。它的变换是求解组间相关性最强的变量,不过它的约束条件是控制变换向量的范数。从形式上看,它使用了典型相关分析的目标函数和主成分分析的约束方程。另一个角度看,偏最小二乘的回归参数也是使用最小二乘估计的,所以它在回归参数求解的时候,对于多个因变量的参数是单独求解的。它的特点只是在于自变量的变换过程。
偏最小二乘最终的模型形式也是
Ynq=Xnpβpq+BY_{nq}=X_{np}\beta_{pq}+BYnq=Xnpβpq+B
算法流程
假设p个自变量X1,...,XpX_1,...,X_pX1,...,Xp和q个因变量Y1,...,YqY_1,...,Y_qY1,...,Yq。n个样本的标准化后的数据为X0(n∗p),Y0(n∗q)X_0(n*p),Y_0(n*q)X0(n∗p),Y0(n∗q)。
- 最佳变换向量求解以得到第一对成分。求解w1,v1w_1,v_1w1,v1使得w1′X0和v1′Y0w_1^{'}X_0和v_1^{'}Y_0w1′X0和v1′Y0的相关性最大,即协方差最大,对于标准化数据,也就是w1′X0和v1′Y0w_1^{'}X_0和v_1^{'}Y_0w1′X0

最低0.47元/天 解锁文章
4075

被折叠的 条评论
为什么被折叠?



