简单线性回归,这是一种基于自变量值(X)来预测因变量值(Y)的方法。假设这两个变量是线性相关的。因此,我们尝试寻找一种根据特征或自变量(x)的线性函数来精确预测响应值(y)。
步骤1:数据预处理
更多说明可以去这篇文章看看:机器学习中的数据预处理步骤
我们将按照之前的数据预处理信息图表那样来执行相同的步骤:
导入相关库:
其中第三相关库matplotlib是用来可视化数据的。
导入数据集:
检查缺失数据:
从上面检查来看,未发现缺失值,所以这里不用做缺失值处理操作。
划分数据集:
特征缩放:
由于这里的数据相对较均匀,差距落差没那么大,所以这里不需要对其进行数据缩放。
步骤2:通过训练集来训练简单线性回归模型
为了使用模型来训练数据集,我们将使用来自 sklearn.linear_model 库的 LinearRegression类,然后我们创建一个 LinearRegression 类的 regressor 对象最后我们将使用LinearRegression 类的 fit() 方法将 regressor 对象对数据集进行训练。
步骤3:预测结果
现在我们将预测来自测试集的观察结果。我们将把预测结果输出保存在向量 Y_pred 中。我们使用前一步中训练的回归模型 regressor 的 LinearRegression 类的预测方法来对结果进行预测。
步骤4:结果可视化
最后一步是将结果可视化,我们将使用matplotlib.pyplot库对我们的训练集结果和测试集结果做散点图,以查看我们的模型预测效果。
训练集结果可视化:
测试集结果可视化: