2019
万事胜意
作者:herain R语言中文社区专栏作者
知乎ID:https://www.zhihu.com/people/herain-14
前言
数据挖掘的学习中,一元线性回归,通过现实生活中的企业销售和广告支出这两者之间的联系,进行线性回归模型的学习和形成商业二维变量分析的方法。
前提:一元回归的建模思路大致如下:
第一步:确定因变量与自变量之间的关系
第二步:建立线性关系模型,并对模型进行估计和检验
第三步:利用回归方程进行预测
第四步:对回归模型进行诊断
1.1 确定变量之间的关系
数据:企业的销售收入与广告支出的二维表:(example9_1数据框)
1.2 相关关系的描述
对数据example9_1用scatterplot图表化,一目了然变量之间的关系(初步结论 变量之间存在正向的线性关系):
library('car')
scatterplot(销售收入~广告支出, data=example9_1,spread=F,lty.smooth=1, pch=18, xlab="广告支出",ylab="销售收入",cex.lab=0.7, family = 'SimSun')
1.3 关系强度的度量
相关系数两变量之间线性关系强度的统计量r(也叫做pearson 相关系数,-1<=r<=1), 具体公式请参考资料。
> cor(example9_1[,2], example9_1[,3])
[1] 0.937114
相关系数的检验,用t分布检验:
第一步:提出假设:
原假设:两个变量的线性关系不显著
备择假设:两个变量的线性关系显著