1.数据预处理
数据预处理的详细请参考前一篇博文(数据清洗与预处理),这里简单带过。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt #导入可视化模块
data=pd.read_csv('E:/data/studentscores.csv')
X=data.iloc[:,:1].values
y=data.iloc[:,1].values
#划分训练集与测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=0)
2.使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
clf=LinearRegression()
clf=clf.fit(X_train,y_train)
3.预测结果
pred=clf.predict(X_test)
4.可视化
训练集以及结果可视化
plt.scatter(X_train,y_train,color='red'