简单线性回归
使用一种基于自变量(X)来预测因变量(Y)的方法,假设这两个变量是线性相关的,因此我们尝试寻找一种根据特征或自变量(X)的线性函数来精确预测响应值(Y)。
一、数据预处理
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset=pd.read_csv('datasets/studentscores.csv')
X=dataset.iloc[:,:1].values
Y=dataset.iloc[:,1].values
# 划分训练集、测试集
from sklearn.cross_validation import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=1/4,random_state=0)
二、通过训练集来训练简单线性回归模型
from sklearn.linear_model import LinearRegression
regressor= LinearRegression()
regressor= regressor.fit(X_train,Y_train)
三、预测结果
Y_pred=regressor.predict(X_test)
四、可视化
#可视化训练集
plt.scatter(X_train,Y_train,color='red')
plt.plot(X_train,regressor.predict(X_train),color='blue')
#可视化测试集
plt.scatter(X_test,Y_test,color='red')
plt.plot(X_test,regressor.predict(X_test),color='blue')
数据来源:https://github.com/Avik-Jain/100-Days-Of-ML-Code/tree/master/datasets