-
为什么做变量选择:
首先是内存开销问题:以前由于数据不够庞大,此问题不明显。现在的一些数据特别的基因数据已经足够庞大到计算机无法一次读取,所以有了分布式等方法。做变量选择也是解决此问题的一个方法。
其次是奥卡姆剃刀法则,我们当然会选择最经济的模型来解决问题。 -
F start 统计量 (C 表示简单模型 A表示扩展模型 P表示参数) :
分子为:SSE© - SSE(A) / P(A) - P© 表示的是增加的参数平均使SSE减少了多少或者说增加的参数平均解释了多少。
分母为:SSE(A) / n - P(A) 表示的是能放但没放进模型的参数平均能解释多少。
若F start 很大,则说明挑的参数很好,相当于拿超级英雄与普通人比较。
F统计量是F start 的特例,F是与零模型进行比较,而F start 是扩展模型与简约模型进行比较,即是在复杂模型中施加了惩罚(R square 是没有施加惩罚的),与方差-偏差权衡很像。 -
forward and backward选择过程:以三个变量为例
(注:forward可以用于p>n的情况)
forward:先对三个变量分别做,根据SSE选出最好的模型,再选入第二个变量(此时有两种可能),根据F start 选出最好的;最后再选入第三个变量,根据 F start 选出最优。
backward:先做全回归,在分别删掉一个变量,比较F start,直到F start 很大的时候 停止。
回归里的变量选择
最新推荐文章于 2022-08-10 18:55:38 发布