Day 2_Simple_Linear_Regression

参考链接:简单线性回归——Day2

简单线性回归

第一步 数据预处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0) 

分析

import pandas as pd
dataset = pd.read_csv('studentscores.csv')

pandas 是基于 NumPy 的一个非常好用的库,pandas.read_csv是读取CSV文件到DataFrame(二维标记数据结构),这里赋值给dataset变量。其中DataFrame 是pandas最常用的数据结构,类似于数据库中的表,不过DataFrame不仅仅限制于2维,可以创建多维数据表。

X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

dataset.iloc,它是基于索引(从0开始)位来选取数据集,这里是前闭后开集合,例如dataset.iloc[2 : 3, 0: 1 ],取的是第2行,第0列的数.dataset.iloc,它是基于索引(从0开始)位来选取数据集,这里是前闭后开集合,例如dataset.iloc[2 : 3, 0: 1 ],取的是第2行,第0列的数.
.values属性则是将 DataFrame 转成 numpy类型,以便后续的数值计算

import matplotlib.pyplot as plt

matplotlibpyplot子库提供了和matlab类似的绘图API,方便用户快速绘制2D图表,以下是小测试:

import matplotlib.pyplot as plt
plt.plot([0,1,2,3])
plt.ylabel('age')
plt.xlabel('high')
plt.show()

截图:
在这里插入图片描述
4.

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0) 

sklearn 机器学习库为我们提供了许多的常用机器学习模型,train_test_split随机划分训练集和测试集。
train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为:

X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

参数解释:
train_data:所要划分的样本特征集

train_target:所要划分的样本结果

test_size:样本占比,如果是整数的话就是样本的数量

random_state:是随机数的种子。

随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:

种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。

第二步 训练集使用简单线性回归模型来训练

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)

分析

sklearn 机器学习库为我们提供了许多的常用机器学习模型,线性回归模型 LinearRegression 存在于 sklearn.linear_model 文件中, 该文件为我们提供了许多的线性模型.

我们首先通过 LinearRegression() 初始化一个 regressor 实例来表示线性回归模型.然后通过给 .fit 传入我们的训练集的特征和标签来训练 regressor.

第三步:预测结果

Y_pred = regressor.predict(X_test)

分析

当我们通过 .fit 函数训练好后模型,我们可以通过 .predict 函数来预测我们未知的数据.

第四步:可视化

训练集结果可视化

plt.scatter(X_train , Y_train, color = 'red')
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()

结果:
在这里插入图片描述

测试集结果可视化

plt.scatter(X_test , Y_test, color = 'red')
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()

结果:
在这里插入图片描述

总的程序

#第一步,数据预处理
import pandas as pd
import matplotlib.pyplot as plt

dataset = pd.read_csv('G:/100days_ML/100-Days-Of-ML-Code-master/datasets/studentscores.csv')
X = dataset.iloc[:,:1]
Y = dataset.iloc[:,1]

from sklearn.model_selection import train_test_split
X_train,  X_test,Y_train, Y_test = train_test_split(X,Y,test_size=1/4,random_state=0)

#第二步,训练集使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
regreesor = LinearRegression()
regreesor = regreesor.fit(X_train,Y_train)

#第三步,预测结果
Y_pred = regreesor.predict(X_test)

#第四步,可视化

#4.1 训练结果可视化
#
plt.scatter(X_train,Y_train,color='red')
plt.plot(X_train,regreesor.predict(X_train),color = 'blue')
plt.show()

#4.2 测试集可视化
plt.scatter(X_test,Y_test,color = 'red')
plt.plot(X_test,regreesor.predict(X_test),color = 'blue')
plt.show()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值