回归里的变量选择

  1. 为什么做变量选择:
    首先是内存开销问题:以前由于数据不够庞大,此问题不明显。现在的一些数据特别的基因数据已经足够庞大到计算机无法一次读取,所以有了分布式等方法。做变量选择也是解决此问题的一个方法。
    其次是奥卡姆剃刀法则,我们当然会选择最经济的模型来解决问题。

  2. F start 统计量 (C 表示简单模型 A表示扩展模型 P表示参数) :
    分子为:SSE© - SSE(A) / P(A) - P© 表示的是增加的参数平均使SSE减少了多少或者说增加的参数平均解释了多少。
    分母为:SSE(A) / n - P(A) 表示的是能放但没放进模型的参数平均能解释多少。
    若F start 很大,则说明挑的参数很好,相当于拿超级英雄与普通人比较。
    F统计量是F start 的特例,F是与零模型进行比较,而F start 是扩展模型与简约模型进行比较,即是在复杂模型中施加了惩罚(R square 是没有施加惩罚的),与方差-偏差权衡很像。

  3. forward and backward选择过程:以三个变量为例
    (注:forward可以用于p>n的情况)
    forward:先对三个变量分别做,根据SSE选出最好的模型,再选入第二个变量(此时有两种可能),根据F start 选出最好的;最后再选入第三个变量,根据 F start 选出最优。
    backward:先做全回归,在分别删掉一个变量,比较F start,直到F start 很大的时候 停止。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值