Day 2_Simple_Linear_Regression

最新推荐文章于 2023-09-25 12:30:36 发布

lwycc233

最新推荐文章于 2023-09-25 12:30:36 发布

阅读量247

点赞数

分类专栏：机器学习100天

本文链接：https://blog.csdn.net/lwycc2333/article/details/84555883

版权

机器学习100天专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考链接：简单线性回归——Day2

简单线性回归

第一步数据预处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)

分析

import pandas as pd
dataset = pd.read_csv('studentscores.csv')

pandas 是基于 NumPy 的一个非常好用的库，pandas.read_csv是读取CSV文件到DataFrame（二维标记数据结构），这里赋值给dataset变量。其中DataFrame 是pandas最常用的数据结构，类似于数据库中的表，不过DataFrame不仅仅限制于2维，可以创建多维数据表。

X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

dataset.iloc，它是基于索引（从0开始）位来选取数据集，这里是前闭后开集合，例如dataset.iloc[2 : 3, 0: 1 ]，取的是第2行，第0列的数.dataset.iloc，它是基于索引（从0开始）位来选取数据集，这里是前闭后开集合，例如dataset.iloc[2 : 3, 0: 1 ]，取的是第2行，第0列的数.
.values属性则是将 DataFrame 转成 numpy类型，以便后续的数值计算

import matplotlib.pyplot as plt

matplotlib的pyplot子库提供了和matlab类似的绘图API，方便用户快速绘制2D图表，以下是小测试：

import matplotlib.pyplot as plt
plt.plot([0,1,2,3])
plt.ylabel('age')
plt.xlabel('high')
plt.show()

截图：
在这里插入图片描述
4.

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)

sklearn 机器学习库为我们提供了许多的常用机器学习模型,train_test_split随机划分训练集和测试集。
train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和testdata，形式为：

X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

参数解释：
train_data：所要划分的样本特征集

train_target：所要划分的样本结果

test_size：样本占比，如果是整数的话就是样本的数量

random_state：是随机数的种子。

随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：

种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

第二步训练集使用简单线性回归模型来训练

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)

分析

sklearn 机器学习库为我们提供了许多的常用机器学习模型,线性回归模型 LinearRegression 存在于 sklearn.linear_model 文件中, 该文件为我们提供了许多的线性模型.

我们首先通过 LinearRegression() 初始化一个 regressor 实例来表示线性回归模型.然后通过给 .fit 传入我们的训练集的特征和标签来训练 regressor.

第三步：预测结果

Y_pred = regressor.predict(X_test)

分析

当我们通过 .fit 函数训练好后模型,我们可以通过 .predict 函数来预测我们未知的数据.

第四步：可视化

训练集结果可视化

plt.scatter(X_train , Y_train, color = 'red')
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()

结果：
在这里插入图片描述

测试集结果可视化

plt.scatter(X_test , Y_test, color = 'red')
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()

结果：
在这里插入图片描述

总的程序

#第一步，数据预处理
import pandas as pd
import matplotlib.pyplot as plt

dataset = pd.read_csv('G:/100days_ML/100-Days-Of-ML-Code-master/datasets/studentscores.csv')
X = dataset.iloc[:,:1]
Y = dataset.iloc[:,1]

from sklearn.model_selection import train_test_split
X_train,  X_test,Y_train, Y_test = train_test_split(X,Y,test_size=1/4,random_state=0)

#第二步，训练集使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
regreesor = LinearRegression()
regreesor = regreesor.fit(X_train,Y_train)

#第三步，预测结果
Y_pred = regreesor.predict(X_test)

#第四步，可视化

#4.1 训练结果可视化
#
plt.scatter(X_train,Y_train,color='red')
plt.plot(X_train,regreesor.predict(X_train),color = 'blue')
plt.show()

#4.2 测试集可视化
plt.scatter(X_test,Y_test,color = 'red')
plt.plot(X_test,regreesor.predict(X_test),color = 'blue')
plt.show()