线性回归要求因变量与自变量之间存在线性关系,如何来判断呢?实践中我们常采用散点图法,即通过绘制出因变量与自变量的散点图进行观察判断。
如果散点趋向于构成一条直线,那么说明因变量和自变量之间存在线性关系,如果构成曲线,就不存在线性关系。图示如下:
R绘制散点图
先来看案例,这是【医咖会】平台关于线性回归的一个典型案例数据。
研究者拟在45-65岁健康男性人群中分析胆固醇浓度与看电视时间的关系。他们猜测可能存在正向相关,即看电视时间越长,胆固醇浓度越高。同时,他们也希望预测胆固醇浓度,并计算看电视时间对胆固醇浓度的解释能力。
在本例中,因变量是胆固醇浓度数据,自变量是看电视时间。
这才小兵决定使用ggplot2包中的qplot函数来绘制带线性拟合的散点图。
#加载包
library(ggplot2)
#绘制散点图
qplot(data=tv,x=time,y=cholesterol,geom = c("point", "smooth"),method="lm",main = "线性拟合散点图")
来看结果:
从散点图可以看出,本研究中看电视时间和胆固醇浓度存在线性关系。同时也提示,他们之间的线性关系是正向的,即胆固醇浓度(Y)随看电视时间(X)的增加而增加。
本文完
文/图=数据小兵
案例数据=医咖会微信公众号
更多R统计文章