偏最小二乘(PLS)原理分析&Python实现

Dfreedom.

已于 2023-09-14 08:58:33 修改

阅读量3.1w

点赞数 101

分类专栏：光谱数据处理&定量分析文章标签： python 算法 numpy

于 2022-09-25 02:46:08 首次发布

本文链接：https://blog.csdn.net/dongke1991/article/details/126843609

版权

本文详细介绍了偏最小二乘(PLS)回归的原理，包括其与主成分分析(PCA)的关系、实现步骤、主成分求解及回归系数计算。此外，还探讨了PLS中数据标准化的重要性、PCA原理、残差矩阵的计算以及交叉验证的目的。最后，提供了PLS的Python代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

5.4 为什么要计算残差矩阵？为什么要不停地用残差矩阵替换原来的自变量和因变量；

5.5 为什么要进行交叉性检验？

6 PLS代码实现——Python

1 偏最小二乘的意义

回归是研究因变量对自变量的依赖关系的一种统计分析方法，目的是通过自变量的给定值来估计或预测因变量的值。

当自变量只有一个时，常用的回归方法有一元线性回归（SLR）；当自变量有多个时，常用的回归方法有多元线性回归（MLR）、主成分回归（PCR）、偏最小二乘回归（PLS）等，这几种回归方法的联系和区别如下：

从中可以看出，偏最小二乘是主成分分析+线性回归的合体，集合了两者的优点。一般来说，能用主成分分析，就一定能用偏最小二乘。当数据量小，甚至比变量维数还小，而相关性又比较大时使用，偏最小二乘是优于主成分回归。

2 PLS实现步骤

设自变量矩阵是X，因变量矩阵是Y：
① 标准化自变量矩阵和因变量矩阵，标准化后的矩阵是E和F；
② 求解自变量和因变量的第一主成分t1、u1；
③ 建立自变量E、因变量E和第一主成分t1、u1的回归方差，并计算残差矩阵E1、F1；
④ 用E1、F1代替E、F形成新的自变量、因变量，求解新的自变量和因变量的第一主成分t2、u2，即为原来自变量和因变量的第二主成分。
⑤ 建立新的自变量E1、因变量F1（残差矩阵）和第二主成分t2、u2的回归方程，并计算残差矩阵E2，F2；
⑥ 重复④、⑤步直至求出所有的主成分或者满足条件为止；
⑦ 交叉性检验，确定满足条件的主成分个数；
⑧ 建立回归方程，计算出回归系数。