![867ed0a99d661374c518283f12dcac01.png](https://img-blog.csdnimg.cn/img_convert/867ed0a99d661374c518283f12dcac01.png)
大数据分析如何使用线性回归进行预测建模?在R编程中,预测模型对于预测将来的结果和估计不可行的度量非常有用。例如,数据科学家可以使用预测模型根据降雨和温度来预测农作物产量,或者确定具有某些性状的患者对新药的不良反应是否更可能。
在我们专门讨论线性回归之前,让我们提醒自己一个典型的数据科学工作流程是什么样的。很多时候,我们会从一个要回答的问题开始,然后执行以下操作:
1)收集一些与问题相关的数据(越多越好)。
2)如果需要,将数据清理,扩充和预处理为方便的形式。
3)对数据进行探索性分析,以更好地了解数据。
4)使用您发现的内容作为指南,构建数据某些方面的模型。
5)使用模型来回答您开始的问题,并验证结果。
线性回归是数据科学家用于预测建模的最简单,最常见的监督式机器学习算法之一。在这篇文章中,我们将使用线性回归来构建一个模型,该模型根据度量标准来预测樱花树的数量,这对于研究树木的人们来说更容易测量。
在大数据分析如何使用线性回归进行预测建模文章中,我们将使用R来探索该数据集并学习线性回归的基础。如果您不熟悉R语言,我们建议您使用R Data Analyst路径学习R基础知识和R编程:中级课程。掌握一些非常基础的统计知识也将有所帮助,但是如果您知道平均数和标准差是多少,您将可以继续进行。如果您想练习自己构建模型和可视化,我们将使用以下R包:
1)data sets该软件包包含各种实践数据集。我们将使用其中的一种“树”来学习构建线性回归模型。
2)ggplot2 我们将使用这个流行的数据可视化软件包来构建模型图。
3)GGally该软件包扩展了的功能ggplot2。作为初始探索性数据可视化的一部分,我们将使用它来创建绘图矩阵。
4)scatterplot3d 我们将使用此软件包来可视化具有多个预测变量的更复杂的线性回归模型。
无论如何,他们如何测量树木的体积?
该树的数据集包括在基础R的datasets包,它会帮助我们回答这个问题。由于我们正在使用现有的(干净的)数据集,因此上面的步骤1和2已经完成,因此我们可以直接跳到步骤3中的一些初步探索性分析。
![8d9f67c28708fcfbb16811e7ace3d5c9.png](https://img-blog.csdnimg.cn/img_convert/8d9f67c28708fcfbb16811e7ace3d5c9.png)
该数据集包含3个描述黑樱桃树的数字变量的31个观察值:
1)躯干围长(英寸)
2)高度(英尺)
3)体积(英尺3)
这些指标对于研究树木生态学的林务员和科学家是有用的信息。使用基本的林业工具来测量树木的高度和周长是相当简单的,但是测量树木的体积要困难得多。如果您不想真正砍伐和拆除树木,则必须采取一些技术上具有挑战性且耗时的活动,例如爬树和进行精确的测量。能够根据高度和/或周长准确预测树木的体积将很有用。
![b78c867d5414927346c3bf4d8f87dd5b.png](https://img-blog.csdnimg.cn/img_convert/b78c867d5414927346c3bf4d8f87dd5b.png)
为了确定我们是否可以建立预测模型,第一步是查看预测变量和响应变量(在这种情况下,周长,高度和体积)之间是否存在关系。让我们进行一些探索性的数据可视化。我们将使用包中的ggpairs()函数GGally创建一个绘图矩阵,以查看变量之间的关系。
![39a72b19fcf1bc5a169030e5b75d9229.png](https://img-blog.csdnimg.cn/img_convert/39a72b19fcf1bc5a169030e5b75d9229.png)
![70047e17a5285cc3ca5eee6a8d824dcf.png](https://img-blog.csdnimg.cn/img_convert/70047e17a5285cc3ca5eee6a8d824dcf.png)
该ggpairs()函数为我们提供了每个变量组合的散点图,以及每个变量的密度图以及变量之间的相关强度。
如果您以前使用ggplot2过,则该符号可能看起来很熟悉:GGally是该符号的扩展,ggplot2它提供了一个简单的界面来创建一些其他复杂的图形,例如此图形。当我们查看这些图时,我们可以开始了解数据并提出问题。相关系数提供有关变量与关系之间的接近程度的信息;相关系数越接近1,则关系越强。散点图使我们可视化变量对之间的关系。点具有清晰视觉图案(而不是看起来像无形状的云)的散点图指示更强的关系。
我们的问题:哪些预测变量似乎与响应变量相关?从ggpairs()输出看,围长显然与体积有关:相关系数接近1,并且各点似乎具有线性模式。高度和体积之间可能存在某种关系,但似乎关系较弱:相关系数较小,并且散点图中的点更分散。变量之间的关系的形状是什么?
该关系似乎是线性的。从散点图可以看出,树的体积随着树长的增加而持续增加。是牢固的关系,还是数据中的噪声淹没了信号?高度和体积之间的关系还不清楚,但是周长和体积之间的关系似乎很牢固。现在,我们对数据有了全面的了解,我们可以继续进行第4步,并进行一些预测性建模。
形成假设