机器学习笔记_回归_4: 最小二乘问题(2)

subset的选择(特征选择)

参看博客:http://m.blog.csdn.net/blog/xbinworld/44284293
* lasso可以做特征选择(转化为求解次梯度:owl-qn)


自变量选择对于估计和预测的影响

  • 全模型与选模型
    全模型 :设因变量为 m 个: y=β0+β1x1,,+βmxm+ε
    选模型: 从m中选择p个模型
    y=β0p+β1px1,,+βmpxp+εp

=> 性质(证明略)

  1. 选模型预测值是有偏估计(劣势)
  2. 选模型预测的残差小(优势)
  3. 选模型有可能预测的均方误差比全模型小

=> 自变量的选择是有益的


子集回归的选择

  • 从m个选择p的方法有 Cpm =>总是是 2m

  • 自变量的选择准则:m个自变量的回归建模,所有可能子集为 2m 如何选择最优子集
    =>残差平方和SSE最小的回归方差最好;
    (SSE=残差平方和= (yiyi^)2 )


  • i=1n(yiy¯)2=i=1n(yi^y¯)2+i=1n(yiy^)2

i=1n(yiy¯)2 : 总离差平方和=SST
i=1n(yi^y¯)2:=SSR
i=1n(yiy^)2:=SSE

  • 记:增加一个变量后 SSEp => SSEp+1

增减变量后, SSEP+1SSEP

  • 记:复决定系数: R2P+1=1SSEp+1SST;R2P=1SSEpSST

因为:SST于自变量无关,所以 R2p+1R2p


准则1. 自由度调整复决定系数达到最大
准则2. 赤池信息量AIC达到最小(AIC最小的为最优的): AIC=NLN(SSSE)+2P
准则3. Cp 统计量达到最小

  • 上述方法:遍历 2m1 个子集,按照准则选择最优;

逐步回归

  • F检验(方差齐性检验)

i=1n(yiy¯)2=i=1n(yi^y¯)2+i=1n(yiy^)2

i=1n(yiy¯)2:=SST
i=1n(yi^y¯)2:=SSR
i=1n(yiy^)2:=SSE
SST=SSR+SSE

检查自变量 x1,...xp 从整体上是否对随机变量y有明显的影响

F=SSR/PSSE(NP+1)


  • 前进法
  • 后退法
  • 逐步回归法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值