单个特征的线性回归
博客引用
引用一个极其详细的介绍scatter函数的blog地址
链接 [link] https://blog.csdn.net/qiu931110/article/details/68130199
引用一个plot函数详细讲解的blog地址
链接[link]https://blog.csdn.net/tengqingyong/article/details/78829596
源数据(工龄-薪资)
工龄 | 薪资 |
---|---|
0 | 5028 |
1 | 7388 |
2 | 9001 |
3 | 11088 |
4 | 13351 |
5 | 15126 |
6 | 17072 |
7 | 19359 |
8 | 21351 |
9 | 23010 |
10 | 25061 |
sklearn代码
// An highlighted block
#三大数据分析包
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
#sklearn包,包括:模型包,评估指标包
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
experiences = np.array([0,1,2,3,4,5,6,7,8,9,10]) #默认是行数组
salaries = np.array([5028, 7388, 9001, 11088, 13351, 15126, 17072, 19359, 21351,23010, 25061])
# 将特征数据集分为训练集和测试集,除了最后 4 个作为测试用例,其他都用于训练
X_train = experiences[:7]
#reshape(-1,1),变成只有一列,(之所以要化为列,是因为每个样本的特征要单独占用一行)
#X可以是数组或是[样本数,特征数]的矩阵,当样本是单个特征时,才需要reshape变成一列
X_train = X_train.reshape(-1,1)
X_test = experiences[7:]
#reshape(-1,1),变成只有一列
X_test = X_test.reshape(-1,1)
# 把目标数据(特征对应的真实值)也分为训练集和测试集
#y只能是数组
y_train = salaries[:7]
y_test = salaries[7:]
# 创建线性回归模型
#sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)
#fit_intercept : 否计算截距,默认为计算
#normalize,标准化,(X-X均值)/||X||
#copy_X,是否对X数据集复制一份
#n_jobs,是否是并行训练
regr = linear_model.LinearRegression()
# 用训练集训练模型——看就这么简单,一行搞定训练过程
regr.fit(X_train, y_train)
# 用训练得出的模型进行预测
diabetes_y_pred = regr.predict(X_test)
#训练之后,有了参数项, 和截距项
print(regr.coef_)
print(regr.intercept_)
#上面,模型训练和预测都做完了,
#下面,做结果的展示与对比
#先展示测试集的样本
plt.scatter(X_test, y_test, color='black',marker='_')
#再展示测试集的预测结果
plt.scatter(X_test, diabetes_y_pred, color='red',marker='_')
#画出这个函数图(其实函数图,和预测值是重合的)
x=np.linspace(0,10,11)
y=x*regr.coef_+regr.intercept_
plt.plot(x,y,'r')
plt.xticks(())
plt.yticks(())
plt.show()