【机器学习】线性回归的概念以及如何从最小二乘法推导到正规方程和实际线性回归实例（含python代码）

Lossya

于 2024-08-26 10:49:42 发布

阅读量382

点赞数 20

文章标签：机器学习线性回归最小二乘法人工智能 python 算法

本文链接：https://blog.csdn.net/m0_49243785/article/details/141528151

版权

引言

线性回归是一种广泛应用于统计分析、经济预测、机器学习等领域的建模方法。它旨在通过自变量（解释变量）来预测因变量（响应变量）的值

在这里插入图片描述

一、线性回归的概念

1.1 线性回归的基本概念

线性回归模型基于一个简单的假设：因变量与自变量之间存在线性关系。这种关系可以用一条直线来描述，即通过自变量的线性组合来预测因变量的值。线性回归模型的一般形式如下：
$\beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon$

$Y$ 是因变量
$X_1, X_2, ..., X_n$ 是自变量
$\beta_0$ 是截距项
$\beta_1, \beta_2, ..., \beta_n$ 是斜率系数
$\epsilon$ 是误差项，表示模型未能解释的随机变异

1.2 最小二乘法

最小二乘法是求解线性回归模型参数的一种常用方法

它的目标是找到一组参数，使得模型预测值与实际观测值之间的残差平方和最小。残差是实际观测值与模型预测值之间的差异，记为 $\epsilon_i = y_i - \hat{y}_i$ ，其中 $y_i$ 是实际观测值， $\hat{y}_i$ 是模型预测值

1.2.1 最小二乘法的数学表达式

$\sum_{i=1}^{n} \epsilon_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

1.2.2 正规方程

为了找到最小化 $S$ 的 $\beta$ 值，我们需要对每个 $\beta$ 求偏导，并令其等于零。这样我们可以得到正规方程：
$\beta = (X^TX)^{-1}X^TY$

$X$ 是设计矩阵，包含了所有自变量的值

1.2.3 最小二乘法如何推导正规方程

正规方程是线性回归中用于求解回归系数的一种方法

假设我们有以下线性回归模型：
$\beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon$

$Y$ 是因变量
$X_1, X_2, ..., X_n$ 是自变量
$\beta_0, \beta_1, ..., \beta_n$ 是回归系数
$\epsilon$ 是误差项
为了求解 ( \beta ) 的最佳估计值，我们使用最小二乘法，目的是最小化残差平方和 $S$ ：
$\sum_{i=1}^{n} \epsilon_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
$\epsilon_i = y_i - \hat{y}_i$
$\hat{y}_i$ 是模型对第 $i$ 个观测的预测值
我们可以将 $S$ 表达为：
$\sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2$
为了找到最小化 $S$ 的 $\beta$ 值，我们需要对 $S$ 分别对 $\beta_0, \beta_1, ..., \beta_n$ 求偏导，并令这些偏导数等于零
对 $\beta_j$ 求偏导，得到：
$\frac{\partial S}{\partial \beta_j} = -2 \sum_{i=1}^{n} x_{ij} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))$
将上式等于零，得到：
$\sum_{i=1}^{n} x_{ij} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) = 0$
对于 $j = 0, 1, ..., n$ ，我们得到以下方程组：
$\begin{align*} \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) &= 0 \\ \sum_{i=1}^{n} x_{i1} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) &= 0 \\ ... \\ \sum_{i=1}^{n} x_{in} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) &= 0 \\ \end{align*}$
我们可以将这些方程重写为矩阵形式：
$\begin{align*} \sum_{i=1}^{n} y_i &= n\beta_0 + \beta_1\sum_{i=1}^{n} x_{i1} + ... + \beta_n\sum_{i=1}^{n} x_{in} \\ \sum_{i=1}^{n} x_{i1}y_i &= \beta_0\sum_{i=1}^{n} x_{i1} + \beta_1\sum_{i=1}^{n} x_{i1}^2 + ... + \beta_n\sum_{i=1}^{n} x_{i1}x_{in} \\ ... \\ \sum_{i=1}^{n} x_{in}y_i &= \beta_0\sum_{i=1}^{n} x_{in} + \beta_1\sum_{i=1}^{n} x_{i1}x_{in} + ... + \beta_n\sum_{i=1}^{n} x_{in}^2 \\ \end{align*}$

将这些方程表示为矩阵形式 $X^TXY = X^TY$ ，其中 $X$ 是设计矩阵，包含所有自变量 $X_1, X_2, ..., X_n$ 的值（包括一个全为1的列来表示截距项）

我们将上述方程组转换为矩阵形式。首先，定义以下矩阵和向量：

$X$ 是一个 $\times (k+1)$ 的设计矩阵，其中 $n$ 是样本数量， $k$ 是自变量的数量（不包括截距项）。设计矩阵的第一列是全1的列，用于表示截距项 $\beta_0$ ，其余列对应于自变量 $X_1, X_2, ..., X_k$
$Y$ 是一个 $\times 1$ 的向量，包含因变量的观测值
$\beta$ 是一个 $\times 1$ 的向量，包含回归系数 $\beta_0, \beta_1, ..., \beta_k$
$\epsilon$ 是一个 $\times 1$ 的向量，包含误差项
设计矩阵 $X$ 和向量 $Y$ 可以表示为：
$\begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \end{bmatrix}, \quad Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}$
现在，我们可以将残差平方和 $S$ 表示为：
$X\beta)^T(Y - X\beta)$
为了最小化 $S$ ，我们对 $\beta$ 求导并令其等于零：
$\frac{\partial S}{\partial \beta} = -2X^T(Y - X\beta) = 0$
解这个方程，我们得到正规方程：
$X^TX\beta = X^TY$
这是一个 $\times 1$ 的方程组，我们可以解出 $\beta$ ：
$\beta = (X^TX)^{-1}X^TY$
这里， $X^TX)^{-1}$ 是 $X^TX$ 的逆矩阵，如果 $X^TX$ 是可逆的。这个方程给出了回归系数 $\beta$ 的最佳线性无偏估计（BLUE）

总结：正规方程的推导过程包括以下几个步骤

建立线性回归模型
定义残差平方和 $S$
对 $S$ 关于回归系数 $\beta$ 求偏导
将得到的偏导数等于零，形成方程组
将方程组转换为矩阵形式 $X^TX\beta = X^TY$
解矩阵方程得到 $\beta$ 的估计值

在实际应用中，当设计矩阵 $X$ 的列是线性独立的，即 $X^TX$ 是可逆的，正规方程提供了一个直接的方法来计算回归系数
如果 $X^TX$ 不可逆，可能需要使用其他方法，如岭回归或主成分回归

1.3 线性回归的类型

1.3.1 简单线性回归

简单线性回归是只有一个自变量的线性回归模型。它的形式为：
$\beta_0 + \beta_1X + \epsilon$
简单线性回归易于理解和实现，但它的应用范围有限，因为它只能处理单一自变量的问题

1.3.2 多元线性回归

多元线性回归包含多个自变量，其形式为：
$\beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + \epsilon$
多元线性回归在实际应用中更为常见，因为它能够处理更复杂的问题

1.4 线性回归的假设

线性回归的分析和解释依赖于以下假设：

线性关系：自变量与因变量之间存在线性关系
独立性：自变量之间相互独立，不存在多重共线性
同方差性：所有观测值的误差都有相同的方差
正态分布：误差项服从正态分布，均值为零

如果这些假设不成立，线性回归模型的预测能力可能会受到影响

1.5 线性回归的估计和推断

1.5.1 参数估计

线性回归模型的参数估计通常使用最小二乘法。然而，当数据违反某些假设时，可能需要使用其他方法，如加权最小二乘法或岭回归

1.5.2 置信区间和假设检验

在得到参数的估计值后，我们通常希望对它们进行推断。这包括计算参数的置信区间和进行假设检验。置信区间给出了参数估计值的可能范围，而假设检验则用于判断参数是否显著不为零

1.6 线性回归的局限性

线性回归虽然强大，但它也有局限性：

它假设自变量与因变量之间存在线性关系，这在现实中不一定成立
它对异常值敏感，异常值可能会对模型产生较大影响
当自变量之间存在多重共线性时，模型的稳定性会受到影响

1.7 线性回归的改进

为了克服线性回归的局限性，有多种改进方法：

岭回归和Lasso回归：用于处理多重共线性问题
非线性回归：用于处理自变量与因变量之间的非线性关系
稳健回归方法：如最小绝对偏差回归，对异常值不敏感

1.8 实际应用案例

薪资预测

假设我们想要预测一个人的薪资（因变量），我们可能考虑以下自变量：工作经验、教育水平、职位级别和所在城市的生活成本

以下是如何使用Python和scikit-learn库来构建薪资预测模型的步骤：

# 假设我们有一个名为salary_data.csv的数据文件，包含以下列：
# 'Experience' (年), 'Education' (教育水平, 量化为数值), 'Position' (职位级别, 量化为数值), 'Cost_of_Living' (生活成本指数), 'Salary' (薪资)
# 加载数据
df = pd.read_csv('salary_data.csv')
# 特征和目标变量
X = df[['Experience', 'Education', 'Position', 'Cost_of_Living']]
y = df['Salary']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测测试集
y_pred = model.predict(X_test)
# 评估模型
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R2): {r2}")
# 输出系数和截距
print(f"Coefficients: {model.coef_}")
print(f"Intercept: {model.intercept_}")
# 使用模型进行预测
# 假设我们有一个新的数据点
new_data = pd.DataFrame({
    'Experience': [5],
    'Education': [4],
    'Position': [3],
    'Cost_of_Living': [150]
})
predicted_salary = model.predict(new_data)
print(f"Predicted Salary: {predicted_salary[0]}")

首先加载了包含薪资数据的CSV文件
然后定义了特征变量和目标变量
将数据集划分为训练集和测试集
创建了一个线性回归模型，并用训练集数据来训练它
使用测试集数据来评估模型的性能
打印出模型的系数和截距
使用训练好的模型来预测一个新数据点的薪资

1.9 模型评估和诊断

在构建了线性回归模型之后，我们需要对其进行评估和诊断，以确保其可靠性和预测能力

1.9.1模型评估

均方误差（MSE）和均方根误差（RMSE）是常用的评估指标，它们衡量了模型预测值与实际值之间的差异
R-squared（R2）指标表示模型解释的变异性的比例，其值越接近1，模型的解释能力越强

1.9.2 模型诊断

残差分析：通过残差（实际值与预测值之差）来检查模型的假设是否得到满足
正态Q-Q图：检查残差是否服从正态分布
杠杆值和影响点：识别对模型有较大影响的观测值

1.10 结论

线性回归是一个强大的统计工具，用于预测和分析变量之间的关系。尽管它有局限性，但通过适当的改进和诊断，它可以成为解决实际问题的有效工具。在实际应用中，理解线性回归的假设、评估模型性能以及进行模型诊断是至关重要的步骤