简单线性回归,这是一种基于自变量值(X)来预测因变量值(Y)的方法。假设这两个变量是线性相关的。因此,我们尝试寻找一种根据特征或自变量(x)的线性函数来精确预测响应值(y)。
步骤1:数据预处理
更多说明可以去这篇文章看看:机器学习中的数据预处理步骤
我们将按照之前的数据预处理信息图表那样来执行相同的步骤:
导入相关库:
其中第三相关库matplotlib是用来可视化数据的。
![6fe155dac7c0aae9550462cbab6c2e80.png](https://i-blog.csdnimg.cn/blog_migrate/f34c2d364d6ad28b672fc92e24c0fc15.jpeg)
导入数据集:
![17b540cff84379f2cff14b7d193bb011.png](https://i-blog.csdnimg.cn/blog_migrate/2268d13c87acbcd6dc66db3b38f4f655.jpeg)
检查缺失数据:
![ceb97a20c81e9d2f993bda63b26dbf0c.png](https://i-blog.csdnimg.cn/blog_migrate/ed1a7ec6531e725810b915b1ad402750.jpeg)
从上面检查来看,未发现缺失值,所以这里不用做缺失值处理操作。
划分数据集:
![f18839f7e676530dbfa87aa15be1de9c.png](https://i-blog.csdnimg.cn/blog_migrate/67bff897b1787c08ab0208bf2194b433.jpeg)
特征缩放:
由于这里的数据相对较均匀,差距落差没那么大,所以这里不需要对其进行数据缩放。
步骤2:通过训练集来训练简单线性回归模型
为了使用模型来训练数据集,我们将使用来自 sklearn.linear_model 库的 LinearRegression类,然后我们创建一个 LinearRegression 类的 regressor 对象最后我们将使用LinearRegression 类的 fit() 方法将 regressor 对象对数据集进行训练。
![f313df268f6416ab380e0b63174d3e2c.png](https://i-blog.csdnimg.cn/blog_migrate/a479398439f783931296e2e75471a036.jpeg)
步骤3:预测结果
现在我们将预测来自测试集的观察结果。我们将把预测结果输出保存在向量 Y_pred 中。我们使用前一步中训练的回归模型 regressor 的 LinearRegression 类的预测方法来对结果进行预测。
![551def2105f29369c2cd3b6f68162a90.png](https://i-blog.csdnimg.cn/blog_migrate/688ed8af6f8f20744b29576f5a52cc61.jpeg)
步骤4:结果可视化
最后一步是将结果可视化,我们将使用matplotlib.pyplot库对我们的训练集结果和测试集结果做散点图,以查看我们的模型预测效果。
训练集结果可视化:
![d2215056f53bb9b873da292a30306b71.png](https://i-blog.csdnimg.cn/blog_migrate/35c9adc3d6e69db72456841a401d389d.jpeg)
测试集结果可视化:
![b017abbcbe95fd04f2ec720255c890d6.png](https://i-blog.csdnimg.cn/blog_migrate/63a945017e1c802388335d814b462a48.jpeg)