偏最小二乘回归算法原理及Python实践

AI智博信息

于 2024-09-08 22:53:53 发布

阅读量1.3k

点赞数 21

分类专栏：数据分析与挖掘文章标签：回归 python 数据挖掘

本文链接：https://blog.csdn.net/u013571432/article/details/142034868

版权

数据分析与挖掘专栏收录该内容

67 篇文章 1 订阅

订阅专栏

偏最小二乘回归（Partial Least Squares Regression, PLS回归）是一种统计学和机器学习中的多元数据分析方法，特别适用于处理因变量和自变量之间存在多重共线性问题的情况。其原理主要可以归纳为以下几点：

一. 原理概述

PLS回归通过投影分别将预测变量（自变量X）和观测变量（因变量Y）投影到一个新空间，来寻找一个线性回归模型。这种方法不仅考虑了自变量矩阵X中的信息，还同时考虑了因变量矩阵Y的信息，从而能在降维的同时最大化自变量和因变量之间的相关性。

二. 核心思想

PLS回归的核心思想是通过寻找新的正交投影方向（主成分），使得投影后的因变量和自变量之间具有最大的协方差。这种方法结合了主成分分析（PCA）和典型相关分析（CCA）的思想，既考虑了自变量矩阵X的主成分提取，又考虑了因变量矩阵Y与自变量矩阵X之间的最大相关性。

三. 算法步骤

PLS回归算法的主要步骤包括：

提取主成分：首先计算自变量X和因变量Y的协方差矩阵，通过迭代算法（如NIPALS算法）提取出第一组主成分。这组主成分既能反映自变量的变化趋势，又能反映因变量的变化趋势。
回归建模：将提取出的主成分作为新的自变量，对因变量进行线性回归建模。
重复迭代：对剩余的自变量残差继续提取新的主成分，并进行回归，直到满足预定的停止准则（如累计解释变异率达到设定阈值，或提取的主成分数目达到预设值）。

四. 优点与应用

PLS回归具有以下优点：

处理多重共线性：能够有效克服因变量和自变量之间存在的多重共线性问题，即使自变量之间高度相关，也能通过提取主成分进行有效的回归分析。
高维数据处理能力：在自变量和因变量维数都很高的情况下，PLS回归通过降维技术，能够提炼出最重要的信息并构建预测模型，提高了模型的解释性和预测性能。
小样本情况下的优良表现：相比于其他回归方法，PLS回归在样本数量较少的情况下，依然能够获得较为理想的预测效果。

PLS回归广泛应用于化学、环境科学、生物医学、金融等领域，尤其在高维数据和小样本问题中表现出色。例如，在化学领域，PLS回归特别适用于处理化学光谱数据分析，如近红外光谱（NIR）、紫外可见光谱（UV-Vis）等；在生物医学研究中，PLS回归被用来探索基因表达谱与临床表型之间的关联。

五. 注意事项

过拟合风险：PLS回归模型在主成分数量选择不当（如过多）时，可能会导致过拟合现象，即模型对训练数据拟合过度，对未见数据的泛化能力下降。
非线性关系处理能力有限：PLS回归本质上是一种线性模型，尽管可以通过提取主成分间接处理一定程度的非线性关系，但如果数据中的非线性关系十分强烈，单纯使用PLS回归可能无法准确捕捉和描述这种关系。
参数敏感性：PLS回归中参数设置（如主成分的数量）对于模型的性能有很大影响，选择合适的主成分数量需要根据实际问题和数据特点进行细致调整和验证。

六. Python实践

在Python中，实现偏最小二乘回归（PLS Regression）的一个常用方法是使用scikit-learn库中的PLSRegression类。以下是一个使用scikit-learn进行PLS回归的Python实践示例：

首先，你需要确保已经安装了scikit-learn库。如果还没有安装，可以通过pip安装：

pip install scikit-learn

然后，你可以按照以下步骤编写代码：

from sklearn.cross_decomposition import PLSRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
import numpy as np

# 生成一些模拟数据
X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建PLS回归模型
# n_components表示要提取的成分数（即主成分的数量）
pls = PLSRegression(n_components=2)

# 训练模型
pls.fit(X_train, y_train)

# 预测测试集
y_pred = pls.predict(X_test)

# 打印预测结果和真实值（可选）
print("预测值:", y_pred[:5])  # 只打印前5个预测值作为示例
print("真实值:", y_test[:5])  # 只打印前5个真实值作为对比

# 评估模型（可选）
# 这里使用均方误差（MSE）作为评估指标
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("均方误差（MSE）:", mse)

# 查看模型的系数（可选）
# 注意：PLSRegression的系数与标准线性回归的系数有所不同，因为它考虑了X和Y之间的协方差
print("X的系数:", pls.coef_)
print("Y的系数:", pls.y_weights_)  # 这实际上是PLS中用于Y的权重，不是传统意义上的系数

# 查看模型截距（可选）
# PLSRegression默认不包含截距项，如果需要可以手动添加
# 这里我们不打印截距，因为PLSRegression没有直接提供截距的访问方式

请注意以下几点：

生成模拟数据：我使用了make_regression函数来生成一些模拟的回归数据。在实际应用中，你需要用你自己的数据集替换这部分。
划分训练集和测试集：使用train_test_split函数将数据划分为训练集和测试集。
创建PLS回归模型：PLSRegression类用于创建PLS回归模型。n_components参数指定了要提取的成分数（即主成分的数量），这个值需要根据实际情况进行调整。
训练模型：使用训练集数据训练PLS回归模型。
预测和评估：使用训练好的模型对测试集进行预测，并评估模型的性能。这里我使用了均方误差（MSE）作为评估指标。
查看系数：PLS回归的系数与标准线性回归的系数有所不同，因为它同时考虑了自变量和因变量之间的协方差。coef_属性返回的是与X相关的系数，而y_weights_属性返回的是PLS中用于Y的权重，不是传统意义上的系数。