Python 中的偏最小二乘回归
PLS与PCR的异同
两者都属于多元线性回归方法--y=Ax+B
在红外光谱数据中x是通过实验获得的光谱数据,y是需要校准的变量(比如气体的浓度;下面例子
中的糖度值),B是误差。x即光谱数据间存在一定程度的相关性,这种相关性对于预测变量是不
利的。
PLS与PCR都对此提供了自己的解决方法。
接下我将于大家讨论一下两者之间针对此问题处理方法的异同点,或者说进一步改进的地方。
在PCR中,我们通过对测量值的集合进行线性变换来得到一个等价的集合X1=XW。这个变换使得
新的"光谱"(也就是主成分)之间是线性独立的。在统计学中,这个得到的X1被称为因子得分。
PCR中的线性变换的目的是最大限度地减小主成分的协方差。换句话说,这个过程只使用频谱数据
而不使用y。
PLS 基于寻找相似的线性变换(PLS通过寻找自变量和因变量之间的相似性来进行线性变换),但
通过最大化y和X1。这意味着PLS不仅考虑了自变量(光谱),还同时考虑了因变量(响应