数据科学之机器学习3:线性回归2

artical 17

“文章原创,转载请注明出处”


上一篇简单介绍了线性回归中系数估计的问题,给出了一元以及多元情况下,系数估计值的表达式!此外,还给出了在R语言中如何使用自带的函数计算系数估计值。

这一篇,打算介绍一下线性回归中的一些显著性检验问题。这个就是完全属于统计学中的理论内容,不过依旧有着很强的实际意义。简单来说,显著性检验不能通过,说明你的线性回归的效果不好,可能你就需要选择其它的方式去处理你手头的数据,而不是选择线性回归了。


一、回归方程的显著性检验

考虑回归方程是否显著,意思就是查看自变量 x1,x2,,xp 从整体上是否对因变量 y 有显著的影响。则,我们可以考虑这样的假设检验问题:

H0:β0=β1==βp=0; H1:β0,β1,,βp0

显然,如果原假设成立的话,自变量对因变量的影响不大,也就是用线性回归模型来解释就显得不合适了。

在正态假设下,原假设 H0 成立时,有 F 检验统计量:

F=SSR/pSSE/(np1)F(p,np1)

其中 SSR=ni=1(y^iy¯)2 为回归平方和, SSE=ni=1(yiy^i)2 为残差平方和。对于给定的显著性水平 α ,拒绝域为: {FF1α(p,np1)}


二、回归系数的显著性检验

显然,线性回归中很有可能就存在某个自变量对因变量的影响很小,那么它的回归系数就会接近0.因此有如下的假设检验问题:

H0j:βj=0; H1j:βj0, j=0,1,,p

在原假设成立的条件下, t 统计量有:

tj=β^jcjjσ^t(np1)

其中, (cij)=(XTX)1,i,j=0,1,,p; σ^=1np1ni=1(yiy^i)2 。对于给定的显著性水平 α ,拒绝域为: {tjtα/2}


三、R语言中的实现

在上一篇中可以看到,lm函数加上summary函数会有很多的输出内容。其实,那些输出中就含有上述的假设检验的结果,很容易就可以找到,这里不做阐述!

转自:http://jackycode.github.io/blog/2014/04/01/linear-regression2/



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值