机器学习实战之线性回归

oomph_

于 2023-11-19 21:50:13 发布

阅读量241

点赞数 6

分类专栏：机器学习文章标签：机器学习线性回归人工智能 scikit-learn matplotlib

本文链接：https://blog.csdn.net/oomph_/article/details/134496277

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了如何在JupyterNotebook中使用Scikit-learn对波士顿房价数据进行预处理、划分训练集和测试集，训练线性回归模型，评估模型性能（MSE和MAE），并进行预测值与真实值的可视化。

摘要由CSDN通过智能技术生成

开发环境：jupyter notebook

开发使用的框架（包）：Scikit-learn

数据来源：Scikit-learn自带数据集

导入数据

# 导入sklearn自带数据集波士顿房价
from sklearn import datasets
boston_data = datasets.load_boston()
# 定义数据
X = boston_data.data
# 定义标签
y = boston_data.target

数据集划分

# 数据集划分(三七分)
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,  # 属性（特征）数据
                                                 y,  # 标签值
                                                 test_size=0.3,  # 测试集占比
                                                 random_state=12,  # 复现种子
                                                 shuffle=None,  # 是否（洗牌）打乱
                                                 stratify=None)  # 保持测试集与整个数据集的结果比例一致
'''
训练集占比：0.7
测试集占比：0.3
'''

参数说明：

stratify主要用于分类上，如果让stratify = y,意思是让划分测试集上的分类结果比例与未划分的整个数据集上的比例一致

模型训练、预测及评估

# 线性回归模型训练
from sklearn import linear_model
# 调用线性回归模型
LR_model = linear_model.LinearRegression()

# 训练模型
LR_model.fit(X_train,y_train)

# 在测试集上预测
y_pred_LR = LR_model.predict(X_test)

# 评估模型
from sklearn import metrics
# 均方差
MSE_LR = metrics.mean_squared_error(y_test,y_pred_LR)

# 平均绝对误差
MAE_LR = metrics.mean_absolute_error(y_test,y_pred_LR)

print(f'MSE_LR: {MSE_LR}',
      f'MAE_LR: {MAE_LR}',
      sep='\n')

可视化结果

# 可视化预测值与真实值
import matplotlib.pyplot as plt
import seaborn;seaborn.set()  # 设置绘图风格
%matplotlib inline
import numpy as np

# 创建画布
fig = plt.figure(figsize=[4,3],dpi=200)
plt.scatter(y_test,
            y_pred_LR,
            s=1.5)
plt.xlabel('y_test');plt.ylabel('y_pred_LR')
plt.title('y_test & y_pred_LR')

x = np.arange(10,50)
y_linear = x
plt.plot(x,
         y_linear,
         c='red',
         lw=2)