Tikhonov正则化与MATLAB实现教程

最新推荐文章于 2025-04-02 21:27:54 发布

西域情歌

最新推荐文章于 2025-04-02 21:27:54 发布

阅读量843

点赞数 12

本文链接：https://blog.csdn.net/weixin_42527589/article/details/146305123

版权

本文还有配套的精品资源，点击获取

简介：正则化方法，特别是Tikhonov正则化，用于解决线性方程组过定问题，在机器学习和数据挖掘中至关重要。本资源深入介绍了Tikhonov正则化的基本原理、实现步骤，以及如何在MATLAB环境下应用。通过讲解数据准备、损失函数构建、优化求解、正则化参数选择等关键环节，本教程旨在提供从理论到实践的完整学习体验，使学生能够熟练掌握正则化技术，并应用于解决实际问题。正则化方法,tikhonov正则化方法,matlab源码.rar

1. 正则化方法基础

在机器学习和数学领域，正则化方法作为一种重要的技术手段被广泛应用于模型的训练和优化过程中。本章将带领读者深入理解正则化技术的基础知识，包括其概念、作用以及在解决过拟合问题中的重要性。

1.1 正则化的基本概念

正则化是一种数学和统计学技术，用于避免模型过于复杂而导致的过拟合现象。通过在模型的损失函数中添加一个正则化项，我们可以惩罚模型复杂度，鼓励模型学习更加平滑或者结构简单的函数。简而言之，正则化是一种在优化问题中引入的约束，用于限制模型参数的大小，使模型在训练集上的表现不会过于极端。

1.2 正则化的数学表述

数学上，正则化通常表示为在损失函数中加入一个额外的项，该额外项与模型参数的某种度量（如范数）成正比。例如，在线性回归问题中，带有L2正则化（也称为岭回归）的损失函数可以写为：

[ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2} \|\theta\|^2_2 ]

这里，( h_\theta(x) )是模型对于输入( x )的预测值，( y )是实际值，( m )是样本数量，( \theta )是模型参数，( \lambda )是正则化系数，( \|\cdot\|_2 )表示L2范数，即参数向量的欧几里得长度。

正则化项（上式中的( \frac{\lambda}{2} \|\theta\|^2_2 )）的存在使得参数较小的模型被偏好，从而在保持模型在训练数据上表现的同时，降低了模型复杂度和过拟合的风险。在接下来的章节中，我们将详细讨论不同类型的正则化方法，包括著名的Tikhonov正则化。

2. Tikhonov正则化原理

2.1 正则化方法的历史与理论

2.1.1 正则化方法的起源

正则化方法最初起源于数学领域，特别是在偏微分方程的不适定问题求解中。19世纪末，数学家们发现许多物理现象的数学描述会导致具有连续谱的算子，进而产生不适定问题。为了解决这些问题，人们开始探索引入额外约束的方式，以此稳定解的存在性和唯一性。

2.1.2 正则化理论在数学中的应用

在数学中，正则化方法逐渐发展成为一种处理不适定问题的强大工具。通过在目标函数中加入一个额外的正则项，能够有效地限制解的“复杂度”，从而改善数值求解的稳定性和准确性。在函数空间中，正则化方法通常被表述为一个变分问题，通过最小化能量泛函来求得问题的近似解。

2.2 Tikhonov正则化数学模型

2.2.1 Tikhonov正则化定义

Tikhonov正则化，也称为Ridge回归，是一种常用的正则化技术，广泛应用于机器学习和统计学中。其核心思想是在目标函数中加入一个正则项，通常是参数向量的L2范数，以此来控制模型的复杂度。其数学表述如下：

[ J(\theta) = \frac{1}{2}||\mathbf{A}\theta - \mathbf{b}||^2_2 + \frac{\lambda}{2}||\theta||^2_2 ]

这里，( \theta ) 是模型参数，( \mathbf{A} ) 是输入数据矩阵，( \mathbf{b} ) 是观测值向量，而 ( \lambda ) 是一个非负的正则化参数。

2.2.2 正则化项的作用和意义

在Tikhonov正则化模型中，正则化项的作用是为了防止模型过拟合。过拟合是指模型对训练数据拟合得太好，以至于丧失了对未知数据的泛化能力。通过约束模型参数的范数，可以有效地限制模型的复杂度，从而减少过拟合的风险。正则化项的引入，实际上为模型增加了一个先验知识，即模型参数应该尽可能地小。这反映了实际问题中一个常见的现象：简单的模型往往更能够反映真实情况。

2.2.3 Tikhonov正则化在数学上的含义

从数学角度来看，Tikhonov正则化等价于在希尔伯特空间中求解一个近似解。具体而言，其解对应于下面的最优化问题：

[ \theta^* = \arg\min_{\theta} {||\mathbf{A}\theta - \mathbf{b}||^2_2 + \lambda||\theta||^2_2} ]

等价于解决线性方程组：

[ (\mathbf{A}^T\mathbf{A} + \lambda\mathbf{I})\theta = \mathbf{A}^T\mathbf{b} ]

其中，( \mathbf{I} ) 是单位矩阵。这个方程被称为Tikhonov正则化方程，它通过增加一个与单位矩阵成比例的项，来确保求解过程中的数值稳定性。当 ( \lambda ) 取值过大时，正则化项占主导地位，导致模型过于简单化；而当 ( \lambda ) 取值过小，可能导致过拟合现象。因此，选择合适的 ( \lambda ) 值是非常关键的。

2.2.4 正则化项的几何意义

在几何上，Tikhonov正则化可以被理解为在参数空间中寻找一个最小范数解。当 ( \lambda > 0 )，最小化目标函数导致的解在 ( \mathbf{A}\theta = \mathbf{b} ) 的最小范数解。这个最小范数解位于超平面 ( \mathbf{A}\theta = \mathbf{b} ) 与球面 ( ||\theta||^2_2 ) 的切点处。通过这种方式，Tikhonov正则化既考虑了与观测数据的拟合程度，又考虑了参数向量的大小，从而在两者之间达到一种平衡。

2.2.5 正则化项对模型的影响

引入正则化项后，对模型产生以下几个主要的影响：

稳定模型 : 减少模型对输入数据微小变化的敏感度，从而提高模型的稳定性。
避免过拟合 : 正则化项通过限制模型复杂度，帮助避免因过度拟合训练数据而牺牲泛化能力。
引入平滑 : 在某些情况下，正则化项可以看作是一种平滑约束，使模型预测更加平滑，避免出现剧烈波动。

2.2.6 与其他正则化方法的比较

Tikhonov正则化是众多正则化方法中的一种，其他常见的正则化方法还包括Lasso正则化、Elastic Net正则化等。Lasso正则化倾向于产生稀疏解，适用于特征选择的场景。而Elastic Net正则化则是Lasso和Ridge正则化的结合体，旨在综合两者的优点。Tikhonov正则化特别适合于在参数空间中进行平滑处理，减少过拟合，并且在数学上容易处理，因为它导致了一个封闭形式的解析解。

2.2.7 正则化在现代应用中的挑战与机遇

随着机器学习的不断发展，正则化技术面临着新的挑战和机遇。例如，如何在高维数据和大数据集上有效地应用正则化方法，以及如何将正则化技术与深度学习结合。另一方面，正则化也为解决如深度学习中的权重衰减、防止过拟合等问题提供了理论支持。随着研究的不断深入，正则化技术将继续在优化算法、特征选择和模型解释性等方面发挥重要作用。

在下一章节中，我们将探讨如何在MATLAB软件中实现Tikhonov正则化，并分析具体的代码实现过程。这将为理解Tikhonov正则化在实际问题中的应用提供一个更加直观的认识。

3. MATLAB实现步骤

3.1 MATLAB软件介绍

3.1.1 MATLAB的基础知识

MATLAB是MathWorks公司发布的一款高性能的数值计算和可视化软件。它广泛应用于算法开发、数据可视化、数据分析以及数值计算等领域。MATLAB的基本计算单元是矩阵，它支持各种矩阵操作，提供了一系列内置函数库，用于线性代数、统计、傅里叶分析、滤波、优化算法等。用户可以通过编写脚本或函数来实现复杂的数学运算和算法，也可以使用MATLAB自带的图形用户界面工具（GUI）和App来简化操作。

3.1.2 MATLAB在正则化问题中的应用

在正则化问题中，MATLAB可以被用来进行方程求解、参数估计以及模型验证。它内置了专门的工具箱，如优化工具箱，可以用来解决正则化参数的选取和优化算法的实现问题。对于Tikhonov正则化问题，MATLAB提供了多种函数和方法，比如 regress 、 lasso 、 ridge 等，这些函数能够方便地实现线性回归、Lasso回归和岭回归等正则化技术。

3.2 MATLAB源码解读

3.2.1 源码结构分析

在MATLAB中实现Tikhonov正则化的基本步骤通常包括：数据加载、正则化参数设置、正则化方程求解。下面是一段MATLAB代码示例，用于说明如何实现Tikhonov正则化：

% 假设A是观测矩阵，b是观测向量
A = rand(10, 5); % 生成10x5的矩阵
b = rand(10, 1); % 生成10x1的向量

% 正则化参数设置
lambda = 0.01;

% Tikhonov正则化
I = eye(5, 5); % 单位矩阵
H = [A; lambda * I]; % 增广矩阵
f = [b; zeros(5, 1)]; % 增广向量

% 求解增广线性系统
x = H\f;

% 输出结果
disp(x);

3.2.2 关键代码逻辑解析

第一行和第二行分别生成了一个10x5的随机矩阵 A 和一个10x1的随机向量 b ，分别代表观测矩阵和观测向量。
lambda 定义了正则化参数，其值需根据具体问题通过交叉验证等方法确定。
I 是5x5的单位矩阵，代表Tikhonov正则化中引入的正则化项。
H 定义了增广矩阵，这是将原问题通过引入正则化项转换为增广线性系统的一部分。
f 是增广后的向量，即在原观测向量 b 的基础上添加了与正则化项对应的部分。
H\f 是利用MATLAB的左除运算符求解增广线性系统的解。
最后一行代码 disp(x); 用于显示解向量。

MATLAB在处理线性系统求解时使用了高斯消元法等数值解法，这些方法对于解决此类问题非常有效，同时MATLAB的矩阵操作功能强大，特别适合于处理这类矩阵运算密集型的任务。

接下来，我们可以讨论如何通过MATLAB实现更复杂的正则化问题，比如非线性正则化，或者使用MATLAB的工具箱函数进行自动化的正则化参数选择。

4. 数据准备与预处理

4.1 数据采集与预处理的重要性

数据是机器学习和统计分析的基础，没有数据就没有分析和学习的可能。数据预处理是数据分析流程中的关键步骤，它决定了后续分析的准确性和有效性。本节将探讨数据采集的基本方法和预处理的必要性，以及预处理步骤的详细分析。

4.1.1 数据获取的方式

数据获取是数据预处理的第一步，数据可以从多个不同的渠道获得。常见的数据获取方式包括：

公开数据集 ：许多研究机构和公司会公开一些数据集，如UCI机器学习库、Kaggle竞赛数据集等。
网络爬虫 ：通过编写爬虫程序抓取网页数据。
传感器数据 ：通过物联网设备实时收集数据。
调查问卷 ：通过设计问卷调查来收集用户的反馈数据。
业务系统 ：从公司的内部业务系统中导出数据，如CRM、ERP系统等。

4.1.2 数据预处理的方法和步骤

数据预处理涉及的方法很多，包括但不限于以下步骤：

数据清洗 ：去除噪声和重复数据，修正或填补缺失值。
数据集成 ：将来自不同源的数据进行合并。
数据转换 ：通过归一化、标准化等方式将数据转换为适合模型处理的格式。
数据归约 ：减少数据规模，但仍然保持数据的完整性。
数据离散化 ：将连续属性的值映射为有限区间，便于后续处理。

4.2 数据集的划分与标准化

在进行模型训练之前，通常需要将数据集分为训练集和测试集。划分数据集的目的是为了在训练模型时能够评估模型在未见过的数据上的性能。标准化处理是数据预处理中非常重要的一环，尤其是在应用正则化方法时，标准化可以帮助提高模型的收敛速度和稳定性。

4.2.1 训练集、测试集的划分

划分数据集最简单的方法是随机划分，常用的比例是70%的数据作为训练集，剩余的30%作为测试集。Python中的 sklearn.model_selection 模块提供了 train_test_split 函数，可以方便地完成数据集的划分：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

其中， X 是特征数据， y 是标签数据， test_size 参数指定了测试集的大小， random_state 确保每次划分的随机性一致。

4.2.2 数据标准化处理技巧

数据标准化是指将数据按比例缩放，使之落入一个小的特定区间。通常标准化的数据会落入区间 [0, 1] 或围绕0均值进行标准化。以下是使用 sklearn.preprocessing 模块进行数据标准化的示例：

from sklearn.preprocessing import StandardScaler

# 初始化标准化器
scaler = StandardScaler()

# 训练标准化器并应用
X_scaled = scaler.fit_transform(X_train)

# 标准化测试集
X_test_scaled = scaler.transform(X_test)

在使用标准化器之前，需要使用 fit_transform 方法对训练集数据进行拟合并转换，这样可以计算出数据的均值和标准差，并用于标准化测试集数据。标准化后的数据具有零均值和单位方差，这有利于提高正则化模型的性能。

5. 损失函数构建

损失函数是机器学习中一个关键组成部分，它用于评估模型预测值与实际值之间的差异。通过最小化损失函数，我们可以训练出一个能够准确预测的模型。本章节将详细介绍损失函数的基本概念，以及如何在正则化问题中进行优化选择。

5.1 损失函数的基本概念

损失函数是衡量模型预测误差的重要工具，它量化了模型预测值与真实值之间的差异。在正则化框架下，损失函数尤为重要，因为它不仅要反映出模型的预测准确性，还要考虑到模型的复杂度。通过这种方式，损失函数帮助我们在模型的预测能力和复杂度之间找到平衡点。

5.1.1 损失函数在正则化中的作用

在正则化方法中，损失函数通常由两部分组成：一部分是数据项（data term），它衡量模型预测值与实际值之间的差异；另一部分是正则化项（regularization term），它衡量模型的复杂度。正则化项的作用是在模型拟合数据的同时，防止模型过度复杂化，即过拟合现象。这种两部分的损失函数可以形式化为：

[ \mathcal{L}(f; X, y) = \frac{1}{n} \sum_{i=1}^{n} L(y_i, f(x_i)) + \lambda \Omega(f) ]

其中，( \mathcal{L} ) 是总的损失函数，( L ) 是数据项，( \Omega ) 是正则化项，( f ) 是模型函数，( X ) 和 ( y ) 分别是输入数据集和对应的标签，( n ) 是样本数量，( \lambda ) 是正则化参数。

5.1.2 常见的损失函数类型

在实际应用中，有许多不同类型的损失函数可供选择，每种损失函数都有其特点和适用场景。以下是一些常见的损失函数：

均方误差（MSE）：适用于回归问题，对异常值较为敏感。
绝对误差（MAE）：同样适用于回归问题，相比MSE对异常值更鲁棒。
对数损失（Log Loss）：常用于二分类和多分类问题，适用于概率输出模型。
交叉熵损失（Cross-Entropy Loss）：通常用于分类问题，特别是在多分类情况下，它的表现优于对数损失。

5.2 损失函数的优化选择

选择合适的损失函数对于模型的性能至关重要。不同的损失函数适用于不同的问题类型，且会对模型的训练和预测产生重要影响。

5.2.1 选择损失函数的准则

选择损失函数时，需要考虑以下准则：

数据的性质：考虑问题的类型（回归或分类），以及数据分布的特点。
模型的输出：确定模型输出的类型（实数、概率分数、类别等）。
损失函数的敏感性：评估损失函数对异常值和噪声数据的敏感程度。
计算效率：考虑损失函数的计算复杂度以及在大数据集上的运行效率。

5.2.2 损失函数优化实例

以一个回归问题为例，我们可以选择使用均方误差（MSE）作为损失函数。假设我们有数据集 ( { (x_i, y_i) }_{i=1}^{n} )，模型的预测函数为 ( \hat{y} = f(x) )，那么MSE损失函数的数学表达式为：

[ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - f(x_i))^2 ]

在Python中使用 sklearn 库进行回归模型的训练时，可以如下实现：

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 假设X_train和y_train是已经准备好的训练数据和标签
model = LinearRegression()
model.fit(X_train, y_train)

# 模型预测
y_pred = model.predict(X_test)

# 计算MSE损失
mse_loss = mean_squared_error(y_test, y_pred)
print(f"MSE Loss: {mse_loss}")

在上述代码中， LinearRegression 类用于构建线性回归模型， fit 方法用于训练模型， mean_squared_error 函数用于计算预测值与真实值之间的MSE损失。

通过上述实例，我们可以看到，在选择损失函数时，需要根据实际问题来决定，没有一成不变的解决方案。优化损失函数是提高模型性能的重要步骤，值得在模型开发过程中深入研究和仔细选择。

6. 优化问题求解

6.1 优化问题的数学描述

6.1.1 优化问题的基本形式

优化问题在数学和计算机科学中是一个核心概念，通常涉及寻找使特定性能指标最大化或最小化的最佳解。在正则化的背景下，优化问题可以用来提升模型的泛化能力，同时防止过拟合。优化问题的基本形式通常表示为：

[ \min_{x} f(x) ]

其中 ( f(x) ) 是一个目标函数，( x ) 是我们要优化的变量。在正则化的场景中，目标函数经常被设计为误差函数与正则项的组合：

[ f(x) = \text{Error}(x) + \lambda R(x) ]

这里，Error(x) 表示模型预测值与真实值之间的差异，通常以损失函数来度量；( R(x) ) 是正则化项，用来控制模型的复杂度；而 ( \lambda ) 是正则化参数，用于权衡模型误差和复杂度之间的相对重要性。

6.1.2 正则化与优化问题的关联

正则化技术与优化问题紧密相关。通过在优化问题的目标函数中引入正则化项，我们可以引导解向着更加平滑或稀疏的方向发展，这有助于提升模型的泛化能力。例如，在机器学习中，正则化通常通过L1或L2范数来实现，它们分别对应于模型参数的绝对值总和或平方和：

L1正则化（Lasso回归）会倾向于产生稀疏模型，其中某些系数可以被精确地压缩至零。
L2正则化（岭回归）则倾向于将参数值缩小，但不压缩至零。

正则化的引入增加了优化问题的复杂性，需要使用更为复杂的优化算法来求解。常用的优化算法包括梯度下降法、牛顿法、共轭梯度法等，它们在不同的问题设置下可能会有不同的效果和适用性。

6.2 优化算法的实现与比较

6.2.1 常见的优化算法

优化算法的选择直接影响到模型的训练效率和最终的性能。以下是几种在正则化问题中常见的优化算法：

6.2.1.1 梯度下降法（Gradient Descent）

梯度下降是最基础的优化算法，它通过迭代地沿着目标函数的负梯度方向更新解来寻找最优解。

基本梯度下降：每次更新一步，步长由学习率决定。
批量梯度下降：每次迭代使用整个数据集计算梯度。
随机梯度下降（SGD）：每次迭代使用一个样本或一小批样本来计算梯度。

代码示例（Python）:

def gradient_descent(x_start, learning_rate, num_iterations):
    x = x_start
    for i in range(num_iterations):
        gradient = compute_gradient(x)
        x = x - learning_rate * gradient
    return x

x_start = 0  # 初始值
learning_rate = 0.01  # 学习率
num_iterations = 100  # 迭代次数

x_min = gradient_descent(x_start, learning_rate, num_iterations)
print(f"Minimum value of x found: {x_min}")

在此代码块中， compute_gradient 函数应根据具体问题计算梯度，而 x_min 将是最小化目标函数的解。

6.2.1.2 动量法（Momentum）

动量法引入了动量概念，加速梯度下降并帮助跳出局部最小值。

代码示例（Python）:

def gradient_descent_with_momentum(x_start, learning_rate, momentum, num_iterations):
    v = 0  # 初始动量
    x = x_start
    for i in range(num_iterations):
        gradient = compute_gradient(x)
        v = momentum * v - learning_rate * gradient
        x = x + v
    return x

momentum = 0.9  # 动量值
x_min = gradient_descent_with_momentum(x_start, learning_rate, momentum, num_iterations)
print(f"Minimum value of x found with momentum: {x_min}")

6.2.1.3 Adam优化算法

Adam是一种自适应学习率的优化算法，结合了动量和RMSprop方法。

6.2.2 算法性能的比较分析

在实际应用中，不同的优化算法可能会产生不同的效果。评价优化算法的性能可以从以下几个维度考虑：

收敛速度 ：算法找到最优解的速度。
鲁棒性 ：算法对于不同问题的适应性。
计算资源消耗 ：优化过程中所需的计算资源和时间。
最终解的质量 ：算法能够找到的最优解的质量。

为了进行比较，我们可以设置一系列不同的优化问题，并在相同的条件下比较不同算法的性能。以下是评价算法性能的一个简单流程：

定义多个优化问题，这些问题应该覆盖不同的应用场景。
使用相同的初始参数和停止条件，对每种算法进行测试。
记录每种算法的收敛步数、最终解的质量以及在过程中的计算时间。
分析每种算法在不同类型问题上的表现，总结优缺点。

通过实际应用和综合评估，我们可以选择最适合当前问题的优化算法，以期在模型训练中获得更优的结果。

总结以上内容，本章节详细讨论了优化问题在正则化背景下的数学描述，以及在解决这些问题时所使用的常见优化算法和它们的性能比较。在理解这些概念和方法的基础上，读者将能够更好地选择和应用不同的优化策略，以优化其正则化模型，进而提高机器学习模型的性能。

7. 正则化参数选择与模型评估

7.1 正则化参数的重要性与选择方法

正则化参数在控制模型复杂度和避免过拟合方面发挥着关键作用。正确地选择这些参数对于构建一个既准确又泛化能力强的模型至关重要。

7.1.1 参数选择对模型性能的影响

在正则化方法中，参数的选择直接影响模型的权重衰减程度。如果参数设置过小，可能会导致过拟合，即模型对训练数据过度敏感，泛化能力差；反之，如果参数设置过大，则可能会导致欠拟合，即模型未能充分学习训练数据中的有效信息。

7.1.2 参数选择策略和实例

参数选择可以依据交叉验证的方法进行。在实践中，通常会采用K折交叉验证来评估不同参数配置下的模型性能。例如，在进行Lasso回归时，我们可以设置一组不同的正则化参数，然后通过交叉验证找到最佳的参数。

代码示例：使用Python的scikit-learn库进行Lasso参数选择

import numpy as np
from sklearn.linear_model import LassoCV
from sklearn.datasets import make_regression
from sklearn.model_selection import KFold

# 生成模拟数据
X, y = make_regression(n_samples=100, n_features=20, noise=2.0)

# 设置交叉验证的折数
kf = KFold(n_splits=5)

# 使用LassoCV进行参数选择
lasso_cv = LassoCV(cv=kf, random_state=0).fit(X, y)

# 输出最佳正则化参数
print("Best alpha found:", lasso_cv.alpha_)

在上述代码中， LassoCV 类结合了Lasso回归和交叉验证。通过拟合模型，我们可以得到最佳的正则化参数 alpha_ 。

7.2 模型训练与预测

模型训练是机器学习项目中的核心环节，而预测是验证模型性能的关键步骤。

7.2.1 模型训练的流程与注意事项

在训练模型时，首先需要准备数据，并将其分为训练集和验证集。在训练过程中，需要监控模型在验证集上的表现，以防止过拟合。此外，合理设置训练轮数（epochs）和早停（early stopping）机制也是防止过拟合的有效方法。

7.2.2 预测结果的评估方法

模型评估通常涉及到计算一系列性能指标，如准确率（accuracy）、精确率（precision）、召回率（recall）和F1分数等。这些指标可以帮助我们从不同角度理解模型的性能。

代码示例：使用Python评估回归模型的性能

from sklearn.metrics import mean_squared_error, r2_score

# 假设X_train, y_train, X_test, y_test已准备好
# 使用最佳参数训练模型
lasso_best = Lasso(alpha=lasso_cv.alpha_).fit(X_train, y_train)

# 进行预测
y_pred = lasso_best.predict(X_test)

# 计算性能指标
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

在这个例子中，我们首先使用最佳找到的正则化参数 alpha_ 来训练一个Lasso回归模型。然后，我们用测试集数据进行预测，并计算均方误差（MSE）和R²分数，以此来评估模型性能。