多元线性回归模型详解：从理论到实践

徐浪老师

于 2024-11-23 09:15:27 发布

阅读量4.4k

点赞数 25

分类专栏：徐浪老师大讲堂文章标签：线性回归回归机器学习

本文链接：https://blog.csdn.net/liaozp88/article/details/143987112

版权

徐浪老师大讲堂专栏收录该内容

233 篇文章

订阅专栏

标题：多元线性回归模型详解：从理论到实践

一、什么是多元线性回归模型？

多元线性回归（Multiple Linear Regression, MLR）是一种统计方法，用于研究多个自变量对一个因变量的线性关系。其目标是通过拟合线性方程，解释因变量的变化并进行预测。

二、多元线性回归的数学模型

1. 模型公式

多元线性回归的数学表达式为：
[
Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p + \epsilon
]
其中：

(Y)：因变量（被预测值）。
(X_1, X_2, \ldots, X_p)：自变量。
(\beta_0)：截距。
(\beta_1, \beta_2, \ldots, \beta_p)：回归系数，表示每个自变量对因变量的影响。
(\epsilon)：误差项，表示模型未能解释的随机因素。

2. 假设条件

自变量之间线性独立。
误差项服从正态分布，且均值为 0。
误差项的方差恒定（同方差性）。
自变量和误差项之间无相关性。

三、多元线性回归的应用场景

经济学：研究 GDP 受投资、消费和政府支出的影响。
市场营销：分析广告费用、促销活动对销售额的影响。
医学：研究药物剂量、病人年龄对治疗效果的影响。
环境科学：预测空气质量受温度、湿度和污染源的影响。

四、多元线性回归的建模步骤

1. 数据准备

检查数据完整性（缺失值处理）。
对变量进行归一化或标准化（若量纲差异较大）。

2. 相关性分析

使用相关系数矩阵检查自变量与因变量的相关性。
检查多重共线性（通过方差膨胀因子 VIF）。

3. 拟合模型

利用最小二乘法（OLS）估计回归系数。

4. 模型评估

(R^2) 和调整后的 (R^2)：解释自变量对因变量的解释力。
p 值：检验回归系数是否显著。
F 检验：整体模型显著性。

5. 残差分析

检查残差是否符合正态分布。
检查残差的同方差性。

五、多元线性回归的 Python 实现

1. 数据加载与探索

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据
data = pd.read_csv('data.csv')

# 数据概览
print(data.head())
print(data.describe())
print(data.info())

2. 数据可视化

# 相关矩阵热图
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

3. 模型拟合

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 提取特征和目标变量
X = data[['X1', 'X2', 'X3']]  # 替换为实际自变量列名
y = data['Y']  # 替换为实际因变量列名

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 拟合模型
model = LinearRegression()
model.fit(X_train, y_train)

# 打印回归系数
print("Intercept:", model.intercept_)
print("Coefficients:", model.coef_)

4. 模型预测与评估

# 预测
y_pred = model.predict(X_test)

# 评估指标
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mean Squared Error:", mse)
print("R-squared:", r2)

5. 模型解释

# 打印回归方程
coef = model.coef_
intercept = model.intercept_
print(f"Regression Equation: Y = {intercept:.2f} + {coef[0]:.2f}*X1 + {coef[1]:.2f}*X2 + {coef[2]:.2f}*X3")

6. 残差分析

# 计算残差
residuals = y_test - y_pred

# 残差直方图
plt.hist(residuals, bins=20)
plt.title('Residual Distribution')
plt.xlabel('Residuals')
plt.ylabel('Frequency')
plt.show()

# 残差散点图
plt.scatter(y_pred, residuals)
plt.axhline(y=0, color='red', linestyle='--')
plt.title('Residuals vs Predicted')
plt.xlabel('Predicted')
plt.ylabel('Residuals')
plt.show()