![3901436-bb2b34ec37c3a43a](https://i-blog.csdnimg.cn/blog_migrate/c1a45fbe12eb71799bf47b05896a5cdc.webp?x-image-process=image/format,png)
2019
万事胜意
欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
作者:herainR语言中文社区专栏作者
知乎ID:https://www.zhihu.com/people/herain-14
前言
数据挖掘的学习中,一元线性回归,通过现实生活中的企业销售和广告支出这两者之间的联系,进行线性回归模型的学习和形成商业二维变量分析的方法。
前提:一元回归的建模思路大致如下:
第一步:确定因变量与自变量之间的关系
第二步:建立线性关系模型,并对模型进行估计和检验
第三步:利用回归方程进行预测
第四步:对回归模型进行诊断
1 确定因变量与自变量之间的关系
1.1 确定变量之间的关系
数据:企业的销售收入与广告支出的二维表:(example9_1数据框)
1.2 相关关系的描述
对数据example9_1用scatterplot图表化,一目了然变量之间的关系(初步结论 变量之间存在正向的线性关系):
library('car')scatterplot(销售收入~广告支出, data=example9_1,spread=F,lty.smooth=1, pch=18, xlab="广告支出",ylab="销售收入",cex.lab=0.7, family = 'SimSun')
![3901436-b92787b859bdbe3f](https://i-blog.csdnimg.cn/blog_migrate/bba6d9f72e7f189fd743e5a9023b1fb9.webp?x-image-process=image/format,png)
1.3 关系强度的度量
相关系数两变量之间线性关系强度的统计量r(也叫做pearson 相关系数,-1<=r<=1), 具体公式请参考资料。
> cor(example9_1[,2], example9_1[,3])[1] 0.937114
相关系数的检验,用t分布检验:
第一步:提出假设:
原假设:两个变量的线性关系不显著
备择假设:两个变量的线性关系显著
第二步: 计算统计变量t:
install.packages("psych",repos="The Comprehensive R Archive Network") library(psych)cor.test(example9_1[,2], example9_1[,3]) Pearson's product-moment correlationdata: example9_1[, 2] and example9_1[, 3]t = 11.391, df = 18, p-value = 1.161e-09alternative hypothesis: true correlation is not equal to 095 percent confidence interval: 0.8450142 0.9752189sample estimates: cor 0.937114
第三步:进行决策:统计量P值小于0.05,拒绝原假设,得出两个变量的线性关系显著
2 建立线性关系模型,并进行估计与检验
2.1 建立回归模型: