这两天为了AU和访问量都在搞R,真是被逼迫的学啊...因为EXCEL太不智能了。还好之前上过JHU在coursera的统计分析一部分课程(后面听不下去逃掉了TAT),居然还用上了...
好吧,待我把这几天的工作总结一下。
有两组数值(以下script均用R写)
x<-c(22676277,20882843,20169758,19935222,19642157)
y<-c(128051,108686,99187,85127,81579)
(我知道样本数太少啦,但是实际上就这么多,真是醉了...)
要找出他们之间的关系,并且找出回归函数建模,以便当以后x值继续生产时,可以预测出y值。
首先先计算他们的相关性:
cor(x,y)
值为
0.964
强正相关。可以考虑进行线性回归。
fit<-lm(y~x) ##lm()函数为线性回归函数
coef(fit) ##查看回归函数系数
结果为:
(Intercept) x
-2.082360e+05 1.494401e-02
所谓线性回归就是 y=a+bx 求a,b的值。