变量不在选择列表中_回归分析中的变量选择

也许我这个标题不大严谨,学渣念书就是小和尚念经,念了啥也不记得,只记得个名词了。我们在学统计学的时候好像到处都看到变量选择,为啥要做变量选择?在哪些情况下要做变量选择?做变量选择的效果好不好?姑且把这个标题这么写吧,似乎变量选择也不止出现在回归分析中。

对于最小二乘估计,我们不满意的原因通常有两个:

1,通常具有低偏差高方差,从而预测准确度不够好。我们有时候可以用shrinkage方法通过收缩一些变量的系数或者将其收缩为0,牺牲少许偏差而减少一些方差,使得预测准确度改善。

2,变量太多的话,我们希望取出其中最有影响的一小部分。

目录:

  • 子集选择法
  • Shrinkage Methods

子集选择法:

通过子集选择,我们仅保留选择的子集,而丢弃其他。用最小二乘法估计保留的变量的系数。子集选择法有多种不同的策略。

3.3.1 Best-Subset Selection

b3ae8050af46abf86651e9dc1d2c4f93.png

ecfc6031f8012043c00a324c2a50237d.png

算法:the leaps and bounds procedure (Furnival and Wilson, 1974),适用于p为30到40个的情形。

注意大小为2的最佳子集不一定包含大小为1的最小子集包含的变量。

图3.5下边界中红色的线表示的是可以通过最佳子集进行选择的模型。这条曲线叫作最佳子集曲线,必然不断减小,因而不能用来选择k。

3.3.2 Forward- and Backward-Stepwise Selection

当变量个数p大于40个的时候,在其中搜索所有可能的子集变得不可行。因而可以考虑一个更好的搜索路径。

d6e37262602c36f1fa6be1619fff2fee.png

前向算法是个贪婪算法:产生了一系列的嵌套模型,因此有可能找到的并不是真正的最优的模型。

ec9ff0c75fb6b132c1bf6e90763f1bf6.png

Backward-stepwise selection

88b1481a81fdf898262eaab9d4bdd844.png

注解:

1. 待删变量是所有变量中z值最小的变量。

2. 向后逐步删除法只适用于N>p的情形。而向前逐步选择法对此没有要求。

软件说明:R包中的step函数使用AIC法则来做出选择,在每一步添加或删除使得AIC得分最小的变量。

3.3.3 Forward-Stagewise Regression

d1b2d3c095964f833df25621e00b5f8e.png

开始类似于前向逐步回归,从截距项为

,自变量先作中心化,并且系数均为0的模型开始。在每步中,识别与当前残差最相关的那个变量,然后计算该变量对残差的一元线性回归系数,并将该系数加到改变量的当前系数上去。当N>p时这个过程一直持续到没有变量与当前残差相关,即达到最小二乘估计。

与前向逐步回归不同,将系数加到该变量的当前系数上去的时候,没有对任何其他变量做调整。

fca138519f48b29a2993d23c542844e5.png

c4be157b1e093895506197b8bbed6b18.png

a4c39e107073c5f3752a1ffbb8b35d6f.png

4b30babe60a87f9cfa2b29777839cc3e.png

交叉验证用于训练集,选择复杂参数是训练过程的一部分。

Shrinkage Methods

3.4.1 Ridge Regression

1609386928e4052f2fad0fcafc257512.png

λ ≥ 0 is a complexity parameter,把回归系数向0压缩以及朝彼此的方向压缩。λ越大,压缩的越厉害。

(3.41)的等价形式:

a129587265e8f675ec361be5716b6d04.png

注解

1. (3.41)与(3.42)中的λ与t有一一对应的关系。

2. 适用情况:当回归模型中有许多互相相关的变量的时候,则回归系数可能被很糟糕的估计,而且方差会特别大。

3. 对于变量的不同标度下估计的结果不同,因此在解(3.41)前要先对自变量标准化处理。

4. 注意到截距项β0并没有被惩罚。惩罚截距项会使得结果依赖y的原点的选择,也就是说对yi加一个常数c,并不会简单的导致预测量增加同样的量c.

5. 用ybar来估计β0。

6.因此对自变量进行中心化。因而假定自变量为p维(而不是p+1)

将(3.41)写成矩阵形式为;

72adeaaa13185d11a9f25a461e73c252.png

从奇异值分解的角度看岭回归:

641f08b0800d503ba10b00ad3b03001f.png

48154494acd0c3ca2629c81e20bf13b1.png

28afc5b6e2e961f5b05c0f1909018c7e.png

c1376b2969b9c47e24a6122d88192d3d.png

岭回归的自由度:

4e2ff1ebb533dd6538ff502a81fe4d79.png

When k = p the value of λ that solves df(λ) = p is seen to be λ = 0.

k = p, p - 1, p - 2, · · · , 1

ac8e3e84d93fab76b45043c73276f421.png

3.4.2 The Lasso

ff247714515077ab7d8b75f3deac5431.png

等价的拉格朗日形式:

cd3616c15f55aa5919d48f99f20f3e51.png

注解:

1. 惩罚项使得解并不是y的线性变换。解没有closed form的表达式。

2. 计算lasso是个quadratic programming problem。与ridge regression的computational cost相同。随着λ变化,得到解的整个路径的有效算法是可行的。

3. 使得t充分小,可以使得一些变量的系数恰好等于0。

4. t应该adaptively chosen,从而拿来最小化expected prediction error的估计量。

5. the standardized parameter指的是:

e44c75f5f137e7408b231c3b2be75e9e.png

038bb05865cb4d2b1b7f17a488af12f5.png

3.4.4 Least Angle Regression

0c02dafb7b96cfc4b32a8f3bf3dcb458.png

注解:

1. 最小角回归可以看成是“democratic”版的逐步向前回归。

2. LAR与lasso有关联。

3. 逐步向前回归每步加入一个变量,识别出最优的变量加入到活跃集中,然后更新当前的最小二乘拟合,使得包含进活跃集中的所有变量。

1. 第一步,识别出与因变量最相关的自变量。

2. 把这个变量的系数连续的向最小二乘法的系数移动,使得该变量与当前残差的相关系数在绝对值的水平下递减。

3. 当有其他变量与当前残差的相关系数tied,此过程停止。

d883c70ef425609198605a837fb268fc.png

0bc74f2f4bd32c933492f65abc7287e5.png

4c76e81e768e9de8b731e634dc9b5491.png

cde535e0bd022b0e21fa0718ec988e34.png

Algorithm 3.2 with the lasso modification 3.2a is an efficient way of computing the solution to any lasso problem, especially when p

N.

为什么LAR与Lasso这么相似呢?

f25e51b8fc75aabac4a9a139c6872713.png

fa7650d32b43bcf74167e4fca0bbde56.png

LAR and Lasso的自由度:

0b98636f9e22c7208540413a4f354cd6.png

3885bcc7b5c1b33a83176fd5e72427fb.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值