机器学习实战：PyTorch 与 Sklearn 线性回归模型大对决

最新推荐文章于 2025-04-30 09:36:22 发布

#guiyin11

最新推荐文章于 2025-04-30 09:36:22 发布

阅读量4.2k

点赞数 59

文章标签：机器学习 pytorch sklearn

本文链接：https://blog.csdn.net/2401_83314910/article/details/147465435

版权

一、引言

在机器学习领域，模型的构建和训练依赖于各种工具和框架。PyTorch 和 Sklearn 作为其中的佼佼者，在实现线性回归模型时各有千秋。深入了解它们的差异和优势，对提升模型性能和开发效率意义重大。本文将全面剖析这两个框架在构建和训练线性回归模型方面的特点。

二、实验原理

（一）线性回归基本原理

线性回归旨在寻找输入特征 X 与输出标签 y 的线性关系，通过公式y=Xθ+ϵ来描述。其中，θ是待估参数，ϵ为随机噪声。训练的关键在于最小化预测值与真实值之间的均方误差（MSE），以此确定θ的最优值。

（二）框架实现差异

Sklearn（LinearRegression）：运用最小二乘法直接求解解析解，公式为θ=(XTX)−1XTy 。该方法无需迭代，在处理小规模数据时，能快速得到精确结果，适合线性模型的快速搭建。

PyTorch：采用梯度下降算法，如随机梯度下降（SGD）、Adam 等进行参数迭代优化。使用时需定义计算图、损失函数（如 MSE）和优化器，虽初始训练精度可能欠佳，但在大规模数据和复杂模型扩展（如神经网络）方面优势明显。

三、实验步骤

（一）环境准备

安装 PyTorch 时，CPU 版可通过pip install torch torchvision torchaudio命令安装；GPU 版（需 CUDA 支持）则执行pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118，具体可参考 PyTorch 官网安装指南和 GPU 安装教程。

（二）数据生成

利用 NumPy 生成带噪声的线性数据，代码如下：

import numpy as np
np.random.seed(42)
n_samples = 100
n_features = 1
X = np.random.randn(n_samples, n_features)
true_coef = np.random.randn(n_features)
y = np.dot(X, true_coef) + np.random.randn(n_samples) * 0.1

（三）Sklearn 模型实现

在 Sklearn 中构建、训练和预测线性回归模型，代码如下：

import time
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

start_time_sklearn = time.time()
sklearn_model = LinearRegression()
sklearn_model.fit(X, y)
sklearn_pred = sklearn_model.predict(X)
end_time_sklearn = time.time()
skLearn_mse = mean_squared_error(y, sklearn_pred)
sklearn_time = end_time_sklearn - start_time_sklearn

（四）PyTorch 模型实现

数据转换与模型定义：将 NumPy 数组转换为 PyTorch 张量并定义模型，代码如下：

import torch
import torch.nn as nn

X_tensor = torch.tensor(X, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.float32).view(-1, 1)
model = nn.Linear(n_features, 1)

训练配置：选用 MSE 损失函数和 SGD 优化器，设置迭代次数为 100 次，代码如下：

criterion = nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
start_time_pytorch = time.time()
num_epochs = 100

for epoch in range(num_epochs):
    outputs = model(X_tensor)
    Loss = criterion(outputs, y_tensor)
    optimizer.zero_grad()
    Loss.backward()
    optimizer.step()

end_time_pytorch = time.time()
pytorch_pred = model(X_tensor).detach().numpy().flatten()
pytorch_mse = mean_squared_error(y, pytorch_pred)
pytorch_time = end_time_pytorch - start_time_pytorch