智能归来：深入探索人工智能回归模型的奥秘

最新推荐文章于 2024-09-11 12:11:23 发布

才华横溢caozy

最新推荐文章于 2024-09-11 12:11:23 发布

阅读量989

点赞数 24

分类专栏：人工智能文章标签：人工智能回归数据挖掘

本文链接：https://blog.csdn.net/qq_42538588/article/details/141058119

版权

人工智能专栏收录该内容

28 篇文章 0 订阅

订阅专栏

人工智能之回归模型

1. 回归模型的数学基础

回归分析是统计学中的一个重要工具，用于建模目标变量与一个或多个预测变量之间的关系。在人工智能和机器学习领域，回归模型广泛应用于预测和估计任务。为了深入理解回归模型，首先需要掌握其数学基础。这部分将详细探讨回归分析的基本原理和矩阵形式的回归模型。

在这里插入图片描述

1.1 回归分析的基本原理

回归分析的主要目的是建立一个数学模型，用于描述目标变量（因变量）与一个或多个预测变量（自变量）之间的关系。理解回归模型的基本原理需要从以下几个方面入手：

1.1.1 目标变量与预测变量的关系

在回归分析中，我们关心的是目标变量 ( y ) 如何受到预测变量 ( X ) 的影响。假设我们有一个目标变量 ( y ) 和一个预测变量 ( x )，回归模型试图找到一个函数，使得这个函数能够尽可能准确地预测 ( y ) 的值。一般情况下，这个函数可以写作：

[ y = f(x) + \epsilon ]

其中，( f(x) ) 表示预测函数，而 ( \epsilon ) 是误差项，表示预测值与实际值之间的偏差。

1.1.2 线性回归模型

线性回归是最基本的回归模型形式，它假设目标变量 ( y ) 与预测变量 ( X ) 之间的关系是线性的。线性回归模型的标准形式如下：

[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p + \epsilon ]

其中：

( \beta_0 ) 是截距项，表示当所有预测变量 ( x_1, x_2, \dots, x_p ) 的值为零时，目标变量 ( y ) 的预期值。
( \beta_1, \beta_2, \dots, \beta_p ) 是回归系数，表示每个预测变量对目标变量的影响程度。
( \epsilon ) 是误差项，反映了模型预测与实际观测之间的随机误差。

线性回归的核心在于确定这些回归系数 ( \beta_i ) 的值，使得预测模型尽可能准确地拟合实际数据。常用的估计方法是最小二乘法。

1.2 矩阵形式的回归模型

当回归模型涉及多个预测变量时，矩阵形式的表示方法可以更简洁地描述模型结构。矩阵形式不仅有助于简化计算，还可以为理解回归模型的性质提供便利。

1.2.1 回归方程的矩阵表示

在线性回归模型中，我们可以将目标变量 ( y ) 和预测变量 ( X ) 的关系表示为矩阵形式。假设我们有 ( n ) 个观测值和 ( p ) 个预测变量，则可以构建以下矩阵表示：

目标变量向量：( \mathbf{y} ) 是一个 ( n \times 1 ) 的列向量，其中 ( y_i ) 表示第 ( i ) 个观测值的目标变量。
预测变量矩阵：( \mathbf{X} ) 是一个 ( n \times (p+1) ) 的矩阵，其中每一行对应一个观测值，每一列对应一个预测变量（包括一个常数列用于截距项）。
回归系数向量：( \mathbf{\beta} ) 是一个 ( (p+1) \times 1 ) 的列向量，其中包含回归系数 ( \beta_0, \beta_1, \dots, \beta_p )。
误差向量：( \mathbf{\epsilon} ) 是一个 ( n \times 1 ) 的列向量，表示每个观测值的误差项。

回归方程的矩阵表示为：

[ \mathbf{y} = \mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} ]

在这个表达式中，( \mathbf{y} ) 是目标变量向量，( \mathbf{X} ) 是预测变量矩阵，( \mathbf{\beta} ) 是回归系数向量，而 ( \mathbf{\epsilon} ) 是误差向量。

1.2.2 矩阵运算的基本性质及其在回归分析中的应用

矩阵运算是回归分析中不可或缺的一部分。了解矩阵的基本性质有助于掌握回归模型的计算方法。以下是一些关键的矩阵运算性质及其应用：

矩阵加法和标量乘法：如果 ( \mathbf{A} ) 和 ( \mathbf{B} ) 是相同维度的矩阵，且 ( c ) 是一个标量，则：

[ \mathbf{A} + \mathbf{B} \text{ 是 } \mathbf{A} \text{ 和 } \mathbf{B} \text{ 的对应元素之和} ]

[ c \mathbf{A} \text{ 是 } \mathbf{A} \text{ 中每个元素乘以 } c ]
矩阵乘法：对于矩阵 ( \mathbf{A} ) 和 ( \mathbf{B} )，如果 ( \mathbf{A} ) 是 ( m \times n ) 矩阵，( \mathbf{B} ) 是 ( n \times p ) 矩阵，则它们的乘积 ( \mathbf{A} \mathbf{B} ) 是一个 ( m \times p ) 矩阵，其中每个元素是 ( \mathbf{A} ) 的行与 ( \mathbf{B} ) 的列对应元素的乘积之和。
转置：矩阵 ( \mathbf{A} ) 的转置 ( \mathbf{A}^T ) 是将 ( \mathbf{A} ) 的行与列交换得到的矩阵。即，如果 ( \mathbf{A} ) 是 ( m \times n ) 矩阵，则 ( \mathbf{A}^T ) 是 ( n \times m ) 矩阵。
逆矩阵：如果矩阵 ( \mathbf{A} ) 是一个方阵且存在逆矩阵 ( \mathbf{A}^{-1} )，则满足 ( \mathbf{A} \mathbf{A}^{-1} = \mathbf{I} )，其中 ( \mathbf{I} ) 是单位矩阵。逆矩阵的计算对于解决线性回归中的正规方程非常重要。

在回归分析中，最小二乘估计是通过最小化预测值与实际观测值之间的误差平方和来找到最佳的回归系数。这个问题可以用矩阵运算形式化为：

[ \mathbf{\hat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} ]

这里，( \mathbf{\hat{\beta}} ) 是回归系数的估计值，( \mathbf{X}^T \mathbf{X} ) 是预测变量矩阵的转置与其自身的乘积，( (\mathbf{X}^T \mathbf{X})^{-1} ) 是其逆矩阵，( \mathbf{X}^T \mathbf{y} ) 是预测变量矩阵的转置与目标变量向量的乘积。

1.3 总结

回归模型的数学基础包括回归分析的基本原理和矩阵形式的回归模型。回归分析通过建立目标变量与预测变量之间的关系模型，帮助我们理解和预测目标变量的行为。线性回归模型作为最基础的回归模型，通过线性方程描述目标变量与预测变量之间的关系。在多变量回归模型中，矩阵形式提供了更为简洁和高效的表示方法。掌握矩阵运算的基本性质以及它们在回归分析中的应用，对于有效地构建和求解回归模型至关重要。

2. 最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法（Ordinary Least Squares, OLS）是一种经典的回归分析方法，广泛用于统计学和机器学习中。它通过最小化预测值与实际观测值之间的误差来估计回归模型的参数。以下内容将详细阐述OLS的目标函数、求解过程、假设条件及其性质。

2.1 OLS概述

最小二乘法是一种用于拟合回归模型的参数估计方法，其目标是找到回归模型的参数，使得模型预测值与实际观测值之间的偏差最小。在回归分析中，我们假设因变量 ( y ) 和自变量 ( \mathbf{x} ) 之间存在线性关系。具体而言，回归模型可以表示为：

[
y_i = \mathbf{x}_i^\top \beta + \epsilon_i
]

其中：

( y_i ) 是第 ( i ) 个观测值。
( \mathbf{x}_i ) 是第 ( i ) 个观测的自变量向量。
( \beta ) 是回归系数向量，需要估计的参数。
( \epsilon_i ) 是误差项，反映了模型未能解释的部分。

在这个模型中，误差项 ( \epsilon_i ) 反映了实际观测值与预测值之间的差异。最小二乘法的核心思想是通过最小化这些误差的平方和来找到最优的参数估计。

2.2 目标函数：最小化残差平方和

最小二乘法的目标函数是残差平方和，它是所有观测点的预测值与实际值之间的误差的平方和。具体公式为：

[
S(\beta) = \sum_{i=1}^{n} (y_i - \mathbf{x}_i^\top \beta)^2
]

其中：

( n ) 是观测样本的数量。
( y_i ) 是第 ( i ) 个观测的因变量值。
( \mathbf{x}_i^\top \beta ) 是第 ( i ) 个观测的预测值。

目标函数 ( S(\beta) ) 度量了模型预测值与实际观测值之间的总误差。OLS的目标是选择一组 ( \beta ) 值，使得 ( S(\beta) ) 达到最小，从而得到最优的模型拟合效果。

2.2.1 残差的定义与性质

残差是指每个观测值与模型预测值之间的差异。对于第 ( i ) 个观测值，残差 ( e_i ) 定义为：

[
e_i = y_i - \mathbf{x}_i^\top \beta
]

残差的平方和（RSS）是对所有观测值残差的平方的总和，用于量化模型拟合的好坏。通过最小化 RSS，我们可以找到最佳的回归系数 ( \beta )，从而使得预测值与实际值的偏差最小化。

2.3 OLS 的求解过程

OLS方法的核心在于找到使得目标函数 ( S(\beta) ) 最小的回归系数 ( \beta )。这一过程包括两个步骤：计算梯度并求解最优解。

2.3.1 梯度计算

目标函数 ( S(\beta) ) 关于 ( \beta ) 的梯度可以表示为：

[
\nabla_\beta S(\beta) = -2 \sum_{i=1}^{n} \mathbf{x}_i (y_i - \mathbf{x}_i^\top \beta)
]

将梯度表达式向量化，可以得到：

[
\nabla_\beta S(\beta) = -2 \mathbf{X}^\top (\mathbf{y} - \mathbf{X}\beta)
]

其中：

( \mathbf{X} ) 是设计矩阵，其中每一行是 ( \mathbf{x}_i^\top )。
( \mathbf{y} ) 是因变量向量，包含所有 ( y_i ) 值。
( \mathbf{X}\beta ) 是所有观测的预测值。

我们令梯度为零，得到关于 ( \beta ) 的方程：

[
\mathbf{X}^\top (\mathbf{y} - \mathbf{X}\beta) = 0
]

2.3.2 最优解的求解

通过梯度为零的条件，我们可以求解 ( \beta )：

[
\mathbf{X}^\top \mathbf{y} - \mathbf{X}^\top \mathbf{X} \beta = 0
]

将其重排并求解 ( \beta )：

[
\mathbf{X}^\top \mathbf{X} \beta = \mathbf{X}^\top \mathbf{y}
]

假设 ( \mathbf{X}^\top \mathbf{X} ) 是可逆的，得到：

[
\hat{\beta} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}
]

这个公式就是OLS的闭式解。通过矩阵运算，可以直接计算出回归系数的估计值。

2.4 假设条件与解的唯一性分析

OLS方法的有效性依赖于一些关键假设条件。这些条件确保了OLS估计的无偏性、一致性以及解的唯一性。

2.4.1 线性假设

OLS假设因变量 ( y ) 与自变量 ( \mathbf{x} ) 之间存在线性关系。这意味着模型可以用线性方程表示：

[
y_i = \mathbf{x}_i^\top \beta + \epsilon_i
]

如果这种线性假设不成立，OLS估计可能会产生系统性偏差，因为模型无法正确捕捉因变量与自变量之间的真实关系。

2.4.2 同方差性假设

同方差性假设要求所有观测的误差项 ( \epsilon_i ) 具有相同的方差，即：

[
\text{Var}(\epsilon_i) = \sigma^2
]

如果存在异方差性（即误差的方差在不同观测中不同），OLS估计的标准误可能不准确，从而影响参数估计的置信区间和显著性测试。

2.4.3 自变量的非完全共线性

为了确保OLS解的唯一性，自变量矩阵 ( \mathbf{X} ) 的列向量必须是线性无关的。这意味着矩阵 ( \mathbf{X}^\top \mathbf{X} ) 必须是非奇异的（即可逆的）。如果存在完全共线性（即某些自变量是其他自变量的线性组合），矩阵 ( \mathbf{X}^\top \mathbf{X} ) 将变为奇异矩阵，导致无法求解唯一的 ( \beta )。

2.4.4 误差的正态性假设

尽管正态性假设不是OLS估计的必要条件，但它在进行统计推断时非常重要。如果误差项 ( \epsilon_i ) 服从正态分布，OLS估计量将服从正态分布，从而使得参数估计的假设检验和置信区间的构造变得更加可靠。在样本量很大的情况下，根据中心极限定理，OLS估计量即使在误差项不完全正态的情况下也会趋近于正态分布。

2.5 OLS估计的性质

在满足上述假设的情况下，OLS估计具有若干重要性质：

2.5.1 无偏性

OLS估计是无偏的，即：

[
E(\hat{\beta}) = \beta
]

这意味着，OLS估计量的期望值等于真实的回归系数值。随着样本量的增加，OLS估计趋近于真实参数值，从而在平均意义上没有系统性偏差。

2.5.2 有效性

根据高斯-马尔可夫定理，在满足线性、无偏和同方差性假设的前提下，OLS估计是所有线性无偏估计量中具有最小方差的估计量（BLUE, Best Linear Unbiased Estimator）。这意味着在所有可能的线性无偏估计量中，OLS估计具有最小的方差。

2.5.3 一致性

OLS估计是一致的，即：

[
\hat{\beta} \xrightarrow{p} \beta
]

当样本量趋向于无穷大时，OLS估计量 ( \hat{\beta} ) 会收敛到真实的

回归系数 ( \beta )。一致性确保了在样本量足够大的情况下，OLS估计能够准确地估计真实的模型参数。

2.6 OLS的扩展与应用

尽管OLS方法本身非常有用，但它的应用范围也可以扩展到更多的复杂模型和情境中。

2.6.1 多项式回归

在实际应用中，因变量与自变量之间的关系可能不是线性的。这时可以通过引入自变量的高次项来扩展线性模型。例如，一个二次多项式回归模型可以表示为：

[
y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \epsilon_i
]

这种方法允许我们拟合更复杂的关系，并且仍然可以使用OLS方法进行参数估计。

2.6.2 加权最小二乘法（WLS）

当数据中存在异方差性时，传统的OLS方法可能会导致不准确的参数估计。加权最小二乘法（WLS）通过对每个观测值分配不同的权重来处理这一问题。WLS的目标函数为：

[
\text{minimize } S_w(\beta) = \sum_{i=1}^{n} w_i (y_i - \mathbf{x}_i^\top \beta)^2
]

其中，( w_i ) 是与第 ( i ) 个观测值相关的权重。通过调整权重，WLS可以处理不同观测值的变异性，从而改善模型拟合效果。

2.6.3 广义最小二乘法（GLS）

广义最小二乘法（GLS）用于处理误差项的自相关或异方差性。与OLS不同，GLS通过调整误差项的协方差结构，优化回归模型的参数估计。GLS的目标函数为：

[
\text{minimize } (\mathbf{y} - \mathbf{X}\beta)^\top \mathbf{W} (\mathbf{y} - \mathbf{X}\beta)
]

其中，( \mathbf{W} ) 是根据误差项的协方差结构确定的加权矩阵。GLS可以提供在误差结构复杂情况下的有效参数估计。

2.7 结论

最小二乘法（OLS）是一种重要的回归分析方法，其核心在于通过最小化残差平方和来估计模型参数。尽管其理论基础相对简单，但OLS在实际应用中具有强大的适应性和有效性。通过了解OLS的目标函数、求解过程、假设条件及其性质，我们可以更好地应用这一方法，并在面对更复杂的模型时进行必要的扩展和调整。OLS方法不仅在统计学中占有重要地位，也在现代机器学习和数据分析中发挥着关键作用。

3. 回归模型的假设条件

3.1 线性性假设

3.1.1 线性关系的定义

线性性假设是回归模型最基础的假设之一。它要求自变量（解释变量）与因变量（被解释变量）之间存在一种线性关系。在回归分析中，这种线性关系通常用下述形式表示：

[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \epsilon ]

其中，( Y ) 是因变量，( X_1, X_2, \ldots, X_p ) 是自变量，( \beta_0, \beta_1, \ldots, \beta_p ) 是回归系数，( \epsilon ) 是误差项。

3.1.2 线性性假设的重要性

线性性假设的核心在于，它简化了模型的形式，使得回归分析能够通过最小二乘法等技术来估计模型参数。如果数据与回归模型的线性假设不符，可能导致估计结果偏差，影响预测精度和解释能力。

3.1.3 线性性检验

验证线性性假设的一种常见方法是绘制散点图，观察自变量与因变量之间的关系是否呈现线性趋势。此外，可以通过残差图来检验线性假设。如果残差图中残差随机分布且无明显模式，通常意味着线性性假设基本成立。

3.2 同方差性

3.2.1 同方差性的定义

同方差性假设要求回归模型中的残差（即预测值与实际值之间的差异）具有恒定的方差。这一假设表明残差的分布范围在所有预测值下是均匀的。数学上，这个假设可以表示为：

[ \text{Var}(\epsilon_i) = \sigma^2 ]

其中，(\text{Var}(\epsilon_i)) 表示第 (i) 个观测值的残差的方差，(\sigma^2) 是常数。

3.2.2 同方差性假设的重要性

同方差性假设确保了回归模型的估计量是有效的。如果残差的方差在不同的自变量水平下发生变化（即异方差性），可能导致回归系数估计的标准误差不准确，从而影响假设检验和置信区间的准确性。

3.2.3 同方差性检验

常用的同方差性检验方法包括：

残差图：绘制残差与拟合值的散点图，检查是否存在残差方差随拟合值变化的趋势。
Breusch-Pagan检验：这是一个统计检验方法，用于检测异方差性。
White检验：另一种常见的统计检验方法，不要求特定的异方差性模式。

3.3 独立性

3.3.1 独立性的定义

独立性假设要求回归模型中的观测值彼此之间是独立的，即一个观测值的误差不应该依赖于另一个观测值的误差。这一假设对回归分析的可靠性至关重要。如果观测值之间存在关联性（即自相关），可能导致回归系数的估计不准确，并影响模型的预测能力。

3.3.2 独立性假设的重要性

独立性假设保证了回归模型的参数估计是无偏且有效的。如果数据中存在自相关性，标准误差的估计可能会受到影响，从而导致回归系数的显著性检验结果不可靠。

3.3.3 独立性检验

检验观测值独立性的方法包括：

自相关图（ACF图）：用于检测时间序列数据中是否存在自相关性。
Durbin-Watson检验：专门用于检验线性回归模型中残差的自相关性。
Ljung-Box检验：用于检测时间序列数据中的自相关性是否显著。

3.4 正态性

3.4.1 正态性的定义

正态性假设要求回归模型中的残差服从正态分布。具体而言，残差应该遵循零均值和恒定方差的正态分布。这一假设对回归分析的统计推断尤其重要，特别是在小样本情况下，因为它影响到参数估计的显著性检验和置信区间的构建。

3.4.2 正态性假设的重要性

虽然在大样本下，根据中心极限定理，回归系数的分布趋近于正态分布，但在小样本情况下，正态性假设依然对假设检验和置信区间的准确性至关重要。正态性假设不成立可能会导致假设检验结果的偏差，影响模型的解释力。

3.4.3 正态性检验

常用的正态性检验方法包括：

Q-Q图：通过比较残差的分位数与标准正态分布的分位数，检查残差的分布是否接近正态分布。
Shapiro-Wilk检验：一种常用的正态性检验方法。
Kolmogorov-Smirnov检验：另一种检验残差是否服从正态分布的方法。

4. 回归模型的评估指标

回归模型的评估是确保模型有效性和可靠性的关键步骤。以下是对回归模型中常用评估指标的详细讨论，包括 ( R^2 )（R方）、均方误差（MSE）和调整 ( R^2 )。

4.1 R方（R-Squared）

4.1.1 定义与计算

( R^2 )（R方）是衡量回归模型对因变量的变异解释能力的指标。其公式为：

[ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^{2}{\sum_{i=1}}{n} (y_i - \bar{y})^2} ]

其中：

( y_i ) 是第 (i) 个观测值，
( \hat{y}_i ) 是模型对第 (i) 个观测值的预测值，
( \bar{y} ) 是所有观测值的均值，
( n ) 是样本总数。

该公式的分子是残差平方和（RSS），即模型预测值与实际值的差异平方和。分母是总平方和（TSS），即实际值与均值的差异平方和。( R^2 ) 的值表示模型解释了因变量总变异的比例。

4.1.2 统计意义

( R^2 ) 的值范围从 0 到 1。具体解释如下：

( R^2 = 1 )：模型完美拟合数据。所有预测值都与实际值相同，残差平方和为零，模型解释了所有变异。
( R^2 = 0 )：模型无法解释因变量的变异。模型的预测效果与均值预测效果相同。
( R^2 < 0 )：模型的预测效果甚至比均值预测效果还要差。这通常表示模型拟合效果非常差，可能存在错误的模型设定或数据问题。

( R^2 ) 的优点与限制

优点：

易于计算和解释，直观地反映了模型的解释能力。

限制：

不适用于比较不同模型：在多变量回归中，添加更多的自变量通常会提高 ( R^2 ) 值，即使这些自变量可能并没有实际的预测能力。
对异常值敏感：异常值可能会显著影响 ( R^2 ) 的值，从而影响模型的评价。

4.2 均方误差（Mean Squared Error, MSE）

4.2.1 定义与计算

均方误差（MSE）是回归模型的另一重要评估指标，用于衡量模型预测值与实际值之间的平均平方误差。其计算公式为：

[ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ]

其中：

( y_i ) 是第 (i) 个观测值，
( \hat{y}_i ) 是模型对第 (i) 个观测值的预测值，
( n ) 是样本总数。

MSE 计算了所有预测误差的平方和的平均值，反映了模型预测的整体误差水平。

4.2.2 解读与应用

解读：

MSE 的值越小，表示模型预测结果与实际观测值越接近，模型的性能越好。
单位问题：MSE 的单位是原始数据单位的平方，这可能使得其数值不易直观解读。例如，预测房价的 MSE 是房价单位的平方，这与实际房价的直观理解有所偏离。

优点与限制：

优点：
- 数学性质：MSE 是一个光滑的函数，具有良好的数学性质，使得优化过程较为简单。
- 敏感性：MSE 对较大的误差特别敏感，因为误差的平方会放大异常值的影响。
限制：
- 对异常值敏感：由于平方运算，异常值会对 MSE 产生较大影响，这可能导致评价结果的不稳定。

4.2.3 替代指标

均方根误差（RMSE） 是 MSE 的平方根，具有与原始数据相同的单位。公式为：

[ \text{RMSE} = \sqrt{\text{MSE}} ]

优点：

直观性更强，与数据的实际量级一致，使得对预测误差的解释更加清晰。

4.3 调整 ( R^2 )（Adjusted R-Squared）

4.3.1 定义与计算

调整 ( R^2 ) 用于解决多变量回归模型中 ( R^2 ) 随自变量数量增加而增加的问题。其计算公式为：

[ \text{Adjusted } R^2 = 1 - \left( \frac{1 - R^2}{n - p - 1} \right) \times (n - 1) ]

其中：

( R^2 ) 是未调整的 R方，
( n ) 是样本数量，
( p ) 是自变量数量。

调整 ( R^2 ) 通过引入自变量的数量来修正 ( R^2 ) 的值，旨在提供一个在自变量数量变化时仍然可靠的模型评价。

4.3.2 统计意义与应用

意义：

模型复杂度调整：调整 ( R^2 ) 通过惩罚自变量数量来避免模型过度拟合，确保模型的解释能力不只是由于增加了额外的自变量。
更公平的比较：在比较不同复杂度的模型时，调整 ( R^2 ) 提供了一个更公正的指标。例如，一个包含多个自变量的复杂模型如果不显著提高解释能力，调整 ( R^2 ) 会较低，从而提示模型可能过度拟合。

优点与限制：

优点：
- 避免过度拟合：能够有效避免因增加无用自变量导致的过度拟合问题。
- 适用于模型比较：适用于不同模型的比较，尤其是在自变量数量不同的情况下。
限制：
- 计算复杂：虽然公式不复杂，但理解和解释调整 ( R^2 ) 的实际意义可能比未调整的 ( R^2 ) 更具挑战。

5. 正则化回归模型

5.1 岭回归（Ridge Regression）

5.1.1 岭回归的背景与动机

在回归分析中，普通最小二乘法（Ordinary Least Squares, OLS）是最常用的方法之一，其目标是最小化预测值与实际值之间的均方误差。然而，在高维数据集（特征数量大于样本数量）或特征高度相关（多重共线性）的情况下，OLS 回归往往会导致过拟合，产生不稳定的回归系数。这时，即使是对数据进行微小的扰动，也会导致模型的预测结果发生显著变化。

为了解决这些问题，Hoerl 和 Kennard 于 1970 年提出了岭回归。岭回归通过对回归系数施加二次惩罚（即 L2 正则化）来减小系数的大小，从而降低模型的复杂度，减少方差，提高模型的稳定性。

5.1.2 岭回归的目标函数

岭回归的目标是通过最小化以下目标函数来估计回归系数 ( \beta )：

[
\text{minimize } S(\beta) + \lambda \sum_{j=1}^{p} \beta_j^2
]

其中：

( S(\beta) = \frac{1}{2n} \sum_{i=1}^{n} (y_i - \mathbf{x}_i^T \beta)^2 ) 是传统的最小二乘损失函数，表示预测值与实际值之间的均方误差。
( \lambda \sum_{j=1}^{p} \beta_j^2 ) 是惩罚项，其中 ( \lambda ) 是正则化参数，控制了惩罚项的强度。 ( \sum_{j=1}^{p} \beta_j^2 ) 是回归系数的 L2 范数的平方和，衡量了所有回归系数的整体大小。

惩罚项的引入使得回归系数的绝对值更接近于零，这样可以避免某些回归系数由于数据噪声或多重共线性问题而变得过大，从而提升模型的稳定性和泛化能力。

5.1.3 岭回归的特性

参数选择与交叉验证：正则化参数 ( \lambda ) 的选择至关重要。较大的 ( \lambda ) 会对回归系数施加更强的惩罚，从而导致系数更接近于零，可能会使模型变得过于简单，甚至丧失对数据的学习能力；而过小的 ( \lambda ) 则无法有效抑制过拟合。通常，研究者使用交叉验证方法来确定最优的 ( \lambda ) 值，通过将数据集分为训练集和验证集，选择能够在验证集上表现最佳的 ( \lambda )。
处理多重共线性：在多重共线性严重的情况下，普通最小二乘回归的系数估计会变得不稳定甚至不可解释。岭回归通过在目标函数中加入惩罚项，有效减少了系数的方差，使得回归系数更加稳定。这一点在高维数据分析中尤为重要，因为多重共线性在这种情况下很常见。
回归系数的收缩：与普通最小二乘回归相比，岭回归会对所有回归系数施加收缩（shrinkage）作用。这意味着，即使所有的回归系数都被纳入模型，它们的值也会被压缩，从而降低模型的复杂性。这种特性使得岭回归适合于处理具有高度相关性的特征数据。
无稀疏性：尽管岭回归可以有效地减少系数的大小，但它不会将系数压缩到零。因此，岭回归不会自动执行特征选择，所有的特征都将参与最终的模型预测。这一点与套索回归形成鲜明对比。

5.1.4 实例与应用

岭回归在实际应用中得到了广泛的使用，特别是在高维数据集的回归问题中。例如：

金融领域：在金融数据分析中，经常会面临特征数量多、相关性强的情况，例如在股票价格预测中，多个经济指标往往存在高度相关性。岭回归通过减小系数的绝对值，可以提高模型的稳定性，使得模型在预测未来价格时表现更加可靠。
基因组学：在基因表达数据分析中，特征数量往往远大于样本数量（p > n），而且基因之间存在复杂的相关性。岭回归能够有效地应对这种高维、高相关性的情况，帮助研究人员从海量特征中找到与目标变量最相关的基因。

5.2 套索回归（Lasso Regression）

5.2.1 套索回归的背景与动机

套索回归（Lasso Regression），全称为Least Absolute Shrinkage and Selection Operator，由Robert Tibshirani 于 1996 年提出。与岭回归不同，套索回归通过对回归系数施加 L1 正则化（即绝对值和的惩罚）来达到模型的稀疏性和自动特征选择的效果。

在一些实际问题中，特征的数量可能远远超过样本的数量（例如文本数据中的词汇特征，基因组学中的基因特征等）。在这种情况下，OLS 回归模型会变得极其复杂，且容易过拟合。套索回归不仅能够抑制模型的复杂性，还能自动将一些不重要的特征系数缩为零，从而实现特征选择，这使得套索回归在高维数据分析中特别有用。

5.2.2 套索回归的目标函数

套索回归的目标函数如下：

[
\text{minimize } S(\beta) + \lambda \sum_{j=1}^{p} |\beta_j|
]

其中：

( S(\beta) ) 仍然是普通最小二乘的损失函数，即预测值与实际值之间的均方误差。
( \lambda \sum_{j=1}^{p} |\beta_j| ) 是惩罚项，其中 ( \lambda ) 是正则化参数，控制惩罚项的权重。与岭回归不同，套索回归使用的是 L1 范数（即系数的绝对值之和）来衡量回归系数的大小。

L1 正则化的最大特点在于它倾向于产生稀疏解（sparse solution），即许多系数会被精确压缩为零。这种稀疏性使得套索回归不仅能够抑制模型的复杂性，还能够执行特征选择。

5.2.3 套索回归的特性

稀疏性：套索回归的一个显著特性是其稀疏性。与岭回归不同，套索回归会将不重要的回归系数压缩为零，从而在模型中仅保留对预测结果最重要的特征。这种特性使得套索回归特别适合用于高维数据的特征选择，帮助简化模型，减少计算开销，提高模型的可解释性。
特征选择能力：通过调节正则化参数 ( \lambda )，套索回归能够自动选择出对目标变量最有影响的特征。当 ( \lambda ) 较小时，模型接近于普通最小二乘回归，几乎所有特征都会被纳入模型；而当 ( \lambda ) 较大时，许多不重要的特征系数将被压缩为零，模型会变得更加简洁。
参数选择：和岭回归一样，套索回归也需要通过交叉验证等方法选择合适的正则化参数 ( \lambda )。不同的 ( \lambda ) 值会导致不同的特征选择结果和模型复杂度。

6. 回归模型的扩展与应用

回归模型作为统计学和机器学习中最基础的分析工具之一，在解决各种各样的问题时表现出强大的适应性。然而，现实世界中的数据往往是复杂且多样的，传统的线性回归模型在处理非线性关系、时间序列数据或复杂分布的数据时，可能表现不佳。因此，针对这些复杂情况，研究者们提出了多种回归模型的扩展与应用方法，以应对不同类型的数据特征和分析需求。本章节将深入探讨几种常见的回归模型扩展技术，包括多项式回归、广义线性模型以及时间序列回归模型。

6.1 多项式回归：扩展线性回归的能力

6.1.1 何为多项式回归

多项式回归是对传统线性回归模型的扩展，旨在处理非线性数据关系。在实际应用中，数据与目标变量之间的关系并不总是线性的，因此，线性模型可能无法很好地捕捉这些复杂的关系。通过引入多项式项，回归模型能够更好地拟合这些非线性关系。

多项式回归模型的形式如下：

[
y = \beta_0 + \beta_1 x + \beta_2 x^2 + \dots + \beta_d x^d + \epsilon
]

其中，(x) 是自变量，(y) 是因变量，(\beta_0) 到 (\beta_d) 是模型的系数，(d) 是多项式的最高次数，(\epsilon) 是误差项。通过调整多项式的次数 (d)，模型可以灵活地拟合各种非线性数据。

6.1.2 多项式回归的应用场景

多项式回归特别适用于以下几种场景：

非线性趋势建模：当数据展示出非线性趋势时，使用多项式回归可以有效地捕捉到这些趋势。例如，在经济学中，某些经济指标与时间之间的关系可能不是线性的，但可以通过二次或三次多项式回归进行建模。
复杂系统的建模：在工程和自然科学中，许多物理现象与系统的输入变量之间存在非线性关系。多项式回归可以用于建模这些复杂的关系，帮助研究者更好地理解系统行为。
交互效应的建模：在某些情况下，自变量之间可能存在交互效应，这种效应可以通过引入交互项（如 (x_1 x_2)）和高阶项（如 (x^2)）来建模。

6.1.3 多项式回归的局限性

虽然多项式回归在处理非线性数据时具有很大优势，但它也存在一些局限性：

过拟合：随着多项式次数的增加，模型可能会过度拟合训练数据，从而对噪声数据过于敏感，导致在测试数据上的表现不佳。
模型复杂度增加：高阶多项式回归模型引入了更多的参数，增加了模型的复杂度，可能导致计算成本的增加。
解释性下降：随着多项式次数的增加，模型的解释性可能会下降，特别是在高次多项式中，理解各个系数的物理意义变得更加困难。

6.2 广义线性模型 (Generalized Linear Models, GLM)：超越线性回归

6.2.1 广义线性模型的基本概念

广义线性模型（GLM）是对线性回归模型的一种推广，用于处理目标变量的分布不符合正态分布或数据与自变量之间的关系并非线性关系的情况。GLM的核心思想是通过引入链接函数，将线性回归的框架应用于更广泛的概率分布中。

广义线性模型的基本形式为：

[
g(\mu) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p
]

其中，(g(\mu)) 是目标变量的期望值 (\mu) 与自变量之间的链接函数，(\beta_0) 到 (\beta_p) 是模型的系数，(x_1) 到 (x_p) 是自变量。

6.2.2 链接函数的引入与应用

链接函数的选择使得广义线性模型能够适应不同的分布类型。常见的链接函数和对应的广义线性模型包括：

对数链接函数 (Log Link Function)：
- 适用于泊松回归 (Poisson Regression)。
- 用于处理事件发生次数等计数数据。
- 模型形式：(\log(\mu) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)。
逻辑链接函数 (Logit Link Function)：
- 适用于逻辑回归 (Logistic Regression)。
- 用于处理二分类数据，特别是在目标变量为0或1的情况下。
- 模型形式：(\log\left(\frac{\mu}{1-\mu}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)。
逆链接函数 (Inverse Link Function)：
- 适用于Gamma回归模型。
- 用于处理正偏态分布的数据，特别是用于响应时间或间隔时间的建模。
- 模型形式：(\frac{1}{\mu} = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p)。

6.2.3 广义线性模型的应用

广义线性模型具有广泛的应用领域，包括：

医学研究：逻辑回归广泛应用于医学研究中，用于分析患者是否患病、治疗效果等二分类问题。例如，研究者可以通过逻辑回归分析某种药物对治愈率的影响。
社会科学：在社会科学中，研究者经常需要分析事件发生的频率或概率，如犯罪率、投票行为等。泊松回归可以用来分析这些计数数据。
保险行业：Gamma回归在保险精算中用于建模保单索赔金额，因为索赔金额通常具有正偏态分布。通过Gamma回归模型，保险公司可以更准确地预测潜在风险。

6.2.4 GLM的优势与挑战

广义线性模型的主要优势在于其灵活性和广泛适用性。然而，它也面临一些挑战：

模型假设：GLM模型要求选择适当的链接函数和分布，若选择不当，可能导致模型不准确。
复杂性：与线性回归相比，GLM模型的参数估计和解释相对复杂，需要更多的统计学背景知识。
数据依赖性：GLM对数据的依赖性较强，数据的分布和质量直接影响模型的效果。

6.3 时间序列回归模型：捕捉时间依赖性

6.3.1 时间序列回归的基本概念

时间序列回归模型专注于处理具有时间依赖性的序列数据。在金融、经济、气象等领域，数据往往随着时间的推移而发生变化，且当前数据可能受过去数据的影响。时间序列回归模型通过引入时间滞后项，建模这些时间依赖性。

常见的时间序列回归模型包括自回归模型 (AR) 和移动平均模型 (MA)。

6.3.2 自回归模型 (Autoregressive Model, AR)

自回归模型假设当前时间点的值可以用前几个时间点的值来预测。其数学形式为：

[
y_t = \phi_0 + \phi_1 y_{t-1} + \dots + \phi_p y_{t-p} + \epsilon_t
]

其中，(y_t) 是当前时间点的值，(y_{t-1}) 到 (y_{t-p}) 是前 (p) 个时间点的值，(\phi_0) 到 (\phi_p) 是模型系数，(\epsilon_t) 是误差项。

AR模型的一个关键优势在于它能够捕捉数据中的趋势和周期性变化，因此广泛用于股票价格预测、经济指标分析等领域。

6.3.3 移动平均模型 (Moving Average Model, MA)

移动平均模型假设当前时间点的值是过去 (q) 个时间点的随机误差的加权平均。其数学形式为：

[
y_t = \

mu + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t
]

其中，(\mu) 是平均值，(\epsilon_{t-1}) 到 (\epsilon_{t-q}) 是前 (q) 个时间点的误差，(\theta_1) 到 (\theta_q) 是模型系数，(\epsilon_t) 是当前时间点的误差。

MA模型通常用于捕捉数据中的短期波动，特别是当数据存在随机波动或短期冲击时。

6.3.4 ARMA与ARIMA模型

自回归模型 (AR) 和移动平均模型 (MA) 可以结合使用，形成自回归移动平均模型 (ARMA)。ARMA模型同时考虑了自回归部分和移动平均部分，适用于平稳时间序列数据。

[
y_t = \phi_0 + \phi_1 y_{t-1} + \dots + \phi_p y_{t-p} + \theta_1 \epsilon_{t-1} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t
]

如果数据是非平稳的，可以通过差分操作将其转换为平稳数据，再应用ARMA模型，此时的模型称为自回归积分移动平均模型 (ARIMA)。

6.3.5 时间序列回归模型的应用

时间序列回归模型在多个领域中得到了广泛应用：

金融分析：在金融市场中，股票价格、汇率等往往表现出明显的时间依赖性。时间序列模型可以用于预测这些金融数据的未来走势。
经济学：经济指标如GDP、通货膨胀率等通常会随着时间波动。时间序列模型帮助经济学家分析这些指标的变化趋势和周期性。
气象学：在气象预测中，气温、降水量等数据具有强烈的时间相关性。通过时间序列回归模型，可以提高气象预测的准确性。

7. 案例分析：回归模型在实际中的应用

7.1 预测房价：线性回归模型的实战应用

预测房价是回归模型的经典应用之一。线性回归模型通过分析影响房价的多个因素，建立房价与这些因素之间的关系，从而实现对未来房价的预测。

7.1.1 数据准备

房价预测的第一步是准备数据。一个典型的房价数据集可能包括以下特征：

latitude 和 longitude：房屋的地理位置。
square_footage：房屋的面积。
house_age：房屋的年龄。
num_rooms：房间数。
price：房屋的价格（目标变量）。

假设我们有一个名为 housing_data.csv 的数据文件，其中包含上述特征。我们将使用这个数据集来构建线性回归模型。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 加载数据集
data = pd.read_csv('housing_data.csv')

# 查看数据集的前几行
print(data.head())

# 选择特征和目标变量
X = data[['latitude', 'longitude', 'square_footage', 'house_age', 'num_rooms']]
y = data['price']

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化并训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测房价
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")

在这个例子中，我们首先加载数据集，并选择了与房价相关的特征。接着，我们将数据拆分为训练集和测试集，并使用线性回归模型进行训练。最后，我们预测了测试集中的房价，并计算了均方误差（MSE），这是评估模型性能的常用指标。

7.1.2 特征重要性分析

了解每个特征对房价预测的影响至关重要。线性回归模型提供了每个特征的权重（系数），这些权重可以帮助我们识别影响房价的关键因素。

# 输出特征权重
coefficients = pd.DataFrame(model.coef_, X.columns, columns=['Coefficient'])
coefficients = coefficients.sort_values(by='Coefficient', ascending=False)
print(coefficients)

通过查看每个特征的系数，我们可以确定哪些特征对房价有较大的影响。例如，如果 square_footage 的系数非常高，说明房屋面积是影响房价的重要因素。

7.1.3 优化模型

虽然线性回归模型能够提供一些有用的预测，但在实际应用中，模型的优化往往能够提高预测精度。我们可以尝试以下几种优化方法：

特征工程：增加或修改特征以提高模型性能。
多项式回归：引入多项式特征以捕捉非线性关系。

以下是使用多项式回归进行模型优化的示例：

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# 使用多项式特征进行扩展
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

# 拆分新的训练集和测试集
X_train_poly, X_test_poly, y_train, y_test = train_test_split(X_poly, y, test_size=0.2, random_state=42)

# 初始化并训练多项式回归模型
poly_model = LinearRegression()
poly_model.fit(X_train_poly, y_train)

# 预测房价
y_pred_poly = poly_model.predict(X_test_poly)

# 计算均方误差
mse_poly = mean_squared_error(y_test, y_pred_poly)
print(f"Polynomial Regression Mean Squared Error: {mse_poly}")

在这个示例中，我们使用 PolynomialFeatures 将特征扩展为多项式特征，然后训练一个多项式回归模型。通过这种方式，我们可以捕捉到特征之间的非线性关系，从而提高模型的预测能力。

7.2 金融市场的波动性预测：正则化回归模型的应用

金融市场数据通常具有很强的噪声和非线性特性，因此需要使用正则化回归模型来避免过拟合，并提高预测准确性。正则化回归模型包括 Ridge 回归和 Lasso 回归，它们通过对模型系数进行惩罚来减少过拟合的风险。

7.2.1 数据特征与模型选择

在预测股票价格时，我们通常使用以下特征：

past_n_days_prices：过去n天的股票价格。
volume：交易量。
economic_indicators：经济指标（如GDP增长率、利率等）。

下面的示例代码展示了如何使用 Ridge 回归和 Lasso 回归进行股票价格预测：

from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import train_test_split

# 加载股票数据集
stock_data = pd.read_csv('stock_data.csv')

# 选择特征和目标变量
X = stock_data[['past_n_days_prices', 'volume', 'economic_indicators']]
y = stock_data['future_price']

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用 Ridge 回归
ridge_model = Ridge(alpha=1.0)
ridge_model.fit(X_train, y_train)
y_pred_ridge = ridge_model.predict(X_test)
mse_ridge = mean_squared_error(y_test, y_pred_ridge)
print(f"Ridge Regression Mean Squared Error: {mse_ridge}")

# 使用 Lasso 回归
lasso_model = Lasso(alpha=0.1)
lasso_model.fit(X_train, y_train)
y_pred_lasso = lasso_model.predict(X_test)
mse_lasso = mean_squared_error(y_test, y_pred_lasso)
print(f"Lasso Regression Mean Squared Error: {mse_lasso}")

在这个示例中，我们分别使用 Ridge 回归和 Lasso 回归来预测股票价格。alpha 参数控制正则化的强度，较大的 alpha 值会增加正则化的强度，从而减少过拟合。

7.2.2 正则化模型的性能评估

为了选择最佳的正则化参数，我们可以使用交叉验证来评估模型性能。以下代码展示了如何使用网格搜索来选择 Ridge 回归和 Lasso 回归的最佳参数：

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {'alpha': np.logspace(-4, 4, 10)}

# 使用网格搜索进行 Ridge 回归的参数优化
ridge_cv = GridSearchCV(Ridge(), param_grid, cv=5, scoring='neg_mean_squared_error')
ridge_cv.fit(X_train, y_train)

# 使用网格搜索进行 Lasso 回归的参数优化
lasso_cv = GridSearchCV(Lasso(), param_grid, cv=5, scoring='neg_mean_squared_error')
lasso_cv.fit(X_train, y_train)

print(f"Best Ridge alpha: {ridge_cv.best_params_}")
print(f"Best Lasso alpha: {lasso_cv.best_params_}")

通过网格搜索，我们可以找到最适合的 alpha 值，从而优化正则化效果，提高模型的预测准确性。

7.2.3 多模型组合与提升策略

在金融市场预测中，集成学习可以有效地提高预测性能。我们可以通过将多个模型的预测结果进行组合来获得更好的结果。

from sklearn.ensemble import VotingRegressor

# 使用不同的回归模型组合进行预测
voting_model = VotingRegressor([('ridge', Ridge(alpha=1.0)), ('lasso', Lasso(alpha=0.1))])
voting_model.fit(X_train, y_train)

# 预测并评估模型
y_pred_voting = voting_model.predict(X_test)
mse_voting = mean_squared_error(y_test, y_pred_voting)
print(f"Voting Regressor Mean Squared Error: {mse_voting}")

通过集成 Ridge 回归和 Lasso 回归模型的预测

结果，我们可以减少单一模型可能带来的偏差和方差，从而提高预测的准确性。

7.3 医学中的回归分析：预测疾病进展与治疗效果

在医学研究中，回归模型被广泛用于预测疾病的进展和治疗效果。由于医学数据往往具有复杂的特征，因此需要特别注意模型的解释性和可靠性。

7.3.1 数据特征与模型构建

医学数据集可能包含以下特征：

age：患者年龄。
medical_history：病史记录（可以是多个二进制特征）。
genetic_information：基因信息（通常经过编码处理）。
treatment_plan：治疗方案（如药物剂量、治疗类型等）。

我们可以使用弹性网回归（ElasticNet）来处理这些数据，以兼顾特征选择和过拟合问题。

from sklearn.linear_model import ElasticNet

# 加载患者数据集
patient_data = pd.read_csv('patient_data.csv')

# 选择特征和目标变量
X = patient_data[['age', 'medical_history', 'genetic_information', 'treatment_plan']]
y = patient_data['disease_progression_score']

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用弹性网回归进行预测
elastic_net_model = ElasticNet(alpha=1.0, l1_ratio=0.5)
elastic_net_model.fit(X_train, y_train)
y_pred_en = elastic_net_model.predict(X_test)
mse_en = mean_squared_error(y_test, y_pred_en)
print(f"ElasticNet Mean Squared Error: {mse_en}")

在这个示例中，ElasticNet 回归模型通过调整 alpha 和 l1_ratio 参数来控制模型的正则化强度，从而实现对特征选择和过拟合的平衡。

7.3.2 模型解释性与可靠性

在医学领域，模型的解释性至关重要。我们可以通过查看模型系数来了解每个特征对疾病进展的影响。

import matplotlib.pyplot as plt

# 输出特征的重要性
coefficients = pd.DataFrame(elastic_net_model.coef_, X.columns, columns=['Coefficient'])
coefficients = coefficients.sort_values(by='Coefficient', ascending=False)
print(coefficients)

# 可视化特征的重要性
coefficients.plot(kind='barh')
plt.title('Feature Importance in Disease Progression Prediction')
plt.show()

通过特征系数的可视化，我们能够清楚地看到哪些因素对疾病进展的预测最为重要，从而为医疗决策提供依据。

7.3.3 模型优化与评估

在医学应用中，模型的准确性和可靠性直接影响患者的健康。我们可以使用交叉验证和参数调优来进一步优化模型性能。

from sklearn.model_selection import cross_val_score

# 交叉验证评估模型性能
cv_scores = cross_val_score(ElasticNet(alpha=1.0, l1_ratio=0.5), X, y, cv=5, scoring='neg_mean_squared_error')
print(f"Cross-validated MSE: {-np.mean(cv_scores)}")