参考链接:简单线性回归——Day2
简单线性回归
第一步 数据预处理
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : , : 1 ].values
Y = dataset.iloc[ : , 1 ].values
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)
分析
import pandas as pd
dataset = pd.read_csv('studentscores.csv')
pandas
是基于 NumPy 的一个非常好用的库,pandas.read_csv
是读取CSV文件到DataFrame(二维标记数据结构),这里赋值给dataset
变量。其中DataFrame 是pandas最常用的数据结构,类似于数据库中的表,不过DataFrame不仅仅限制于2维,可以创建多维数据表。
X = dataset.iloc[ : , : 1 ].values
Y = dataset.iloc[ : , 1 ].values
dataset.iloc
,它是基于索引(从0开始)位来选取数据集,这里是前闭后开集合,例如dataset.iloc[2 : 3, 0: 1 ]
,取的是第2行,第0列的数.dataset.iloc
,它是基于索引(从0开始)位来选取数据集,这里是前闭后开集合,例如dataset.iloc[2 : 3, 0: 1 ]
,取的是第2行,第0列的数.
.values
属性则是将 DataFrame 转成 numpy类型,以便后续的数值计算
import matplotlib.pyplot as plt
matplotlib
的pyplot
子库提供了和matlab类似的绘图API,方便用户快速绘制2D图表,以下是小测试:
import matplotlib.pyplot as plt
plt.plot([0,1,2,3])
plt.ylabel('age')
plt.xlabel('high')
plt.show()
截图:
4.
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)
sklearn 机器学习库为我们提供了许多的常用机器学习模型,train_test_split随机划分训练集和测试集。
train_test_split
是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:
X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
参数解释:
train_data:所要划分的样本特征集
train_target:所要划分的样本结果
test_size:样本占比,如果是整数的话就是样本的数量
random_state:是随机数的种子。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。
随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:
种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。
第二步 训练集使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)
分析
sklearn
机器学习库为我们提供了许多的常用机器学习模型,线性回归模型 LinearRegression
存在于 sklearn.linear_model
文件中, 该文件为我们提供了许多的线性模型.
我们首先通过 LinearRegression() 初始化一个 regressor 实例来表示线性回归模型.然后通过给 .fit 传入我们的训练集的特征和标签来训练 regressor.
第三步:预测结果
Y_pred = regressor.predict(X_test)
分析
当我们通过 .fit 函数训练好后模型,我们可以通过 .predict 函数来预测我们未知的数据.
第四步:可视化
训练集结果可视化
plt.scatter(X_train , Y_train, color = 'red')
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()
结果:
测试集结果可视化
plt.scatter(X_test , Y_test, color = 'red')
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()
结果:
总的程序
#第一步,数据预处理
import pandas as pd
import matplotlib.pyplot as plt
dataset = pd.read_csv('G:/100days_ML/100-Days-Of-ML-Code-master/datasets/studentscores.csv')
X = dataset.iloc[:,:1]
Y = dataset.iloc[:,1]
from sklearn.model_selection import train_test_split
X_train, X_test,Y_train, Y_test = train_test_split(X,Y,test_size=1/4,random_state=0)
#第二步,训练集使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
regreesor = LinearRegression()
regreesor = regreesor.fit(X_train,Y_train)
#第三步,预测结果
Y_pred = regreesor.predict(X_test)
#第四步,可视化
#4.1 训练结果可视化
#
plt.scatter(X_train,Y_train,color='red')
plt.plot(X_train,regreesor.predict(X_train),color = 'blue')
plt.show()
#4.2 测试集可视化
plt.scatter(X_test,Y_test,color = 'red')
plt.plot(X_test,regreesor.predict(X_test),color = 'blue')
plt.show()