最简单的线性回归案例：单个特征的线性回归

本文详细介绍如何使用sklearn库实现线性回归模型，通过工龄-薪资数据集进行预测，并展示了模型训练、预测及结果可视化全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单个特征的线性回归

博客引用

引用一个极其详细的介绍scatter函数的blog地址
链接 [link] https://blog.csdn.net/qiu931110/article/details/68130199

引用一个plot函数详细讲解的blog地址
链接[link]https://blog.csdn.net/tengqingyong/article/details/78829596

源数据（工龄-薪资）

工龄	薪资
0	5028
1	7388
2	9001
3	11088
4	13351
5	15126
6	17072
7	19359
8	21351
9	23010
10	25061

sklearn代码

// An highlighted block
#三大数据分析包
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

#sklearn包，包括：模型包，评估指标包
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score

experiences = np.array([0,1,2,3,4,5,6,7,8,9,10])    #默认是行数组
salaries = np.array([5028,  7388,  9001, 11088, 13351, 15126, 17072, 19359, 21351,23010, 25061])

# 将特征数据集分为训练集和测试集，除了最后 4 个作为测试用例，其他都用于训练
X_train = experiences[:7]
#reshape(-1,1)，变成只有一列,(之所以要化为列，是因为每个样本的特征要单独占用一行）
#X可以是数组或是[样本数，特征数]的矩阵，当样本是单个特征时，才需要reshape变成一列
X_train = X_train.reshape(-1,1)
X_test = experiences[7:]
#reshape(-1,1)，变成只有一列
X_test = X_test.reshape(-1,1)

# 把目标数据（特征对应的真实值）也分为训练集和测试集
#y只能是数组
y_train = salaries[:7]
y_test = salaries[7:]

# 创建线性回归模型
#sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)
#fit_intercept : 否计算截距，默认为计算
#normalize，标准化，(X-X均值)/||X||
#copy_X,是否对X数据集复制一份
#n_jobs,是否是并行训练
regr = linear_model.LinearRegression()

# 用训练集训练模型——看就这么简单，一行搞定训练过程
regr.fit(X_train, y_train)

# 用训练得出的模型进行预测
diabetes_y_pred = regr.predict(X_test)

#训练之后，有了参数项， 和截距项
print(regr.coef_)
print(regr.intercept_)

#上面，模型训练和预测都做完了，
#下面，做结果的展示与对比

#先展示测试集的样本
plt.scatter(X_test, y_test,  color='black',marker='_')

#再展示测试集的预测结果
plt.scatter(X_test, diabetes_y_pred, color='red',marker='_')

#画出这个函数图(其实函数图，和预测值是重合的)
x=np.linspace(0,10,11)
y=x*regr.coef_+regr.intercept_
plt.plot(x,y,'r')

plt.xticks(())
plt.yticks(())

plt.show()