100-Days-Of-ML系列Day2

今天来学习简单的线性回归。线性回归假定自变量与因变量存在着线性关系,我们希望找到一个线性函数表示x和y之间的关系。
info

第一步:数据预处理

根据昨天所学的知识对数值型变量、分类变量、缺失值等进行预处理。
导入所需要的库函数:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

读取数据

dataset = pd.read_csv('studentscores.csv')

观察一下我们的数据
data
可以看到我们的数据都是数值型,并且我们假定学生的分数与学习的时间成线性关系,我们需要建立线性模型,根据学习的时长来预测成绩。那我们的自变量就是学习的时长,因变量就是成绩。

X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

切分数据集

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0) 

第二步 通过训练集拟合线性模型

这里同样用到了sklearn库的LinearRegression对训练集进行拟合

 from sklearn.linear_model import LinearRegression
 regressor = LinearRegression()
 regressor = regressor.fit(X_train, Y_train)

这样我们就通过训练集建立、并训练好了线性模型regressor。

第三步 根据模型做出预测

使用regressor的predict方法可以对测试集做出预测。

Y_pred = regressor.predict(X_test)

当然regressor的方法也不只有predict,还有其他的方法:
re
这里输出两个线性模型最常用的值,分别是我们常说的斜率和截距:
coef

第四步 可视化

训练集的可视化

plt.scatter(X_train , Y_train, color = 'red')
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()

train
测试集的可视化

plt.scatter(X_test , Y_test, color = 'red')
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()

test
这就是第二天的全部内容,比较简单,完成了机器学习的最简单的模型线性回归。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值