subset的选择(特征选择)
参看博客:http://m.blog.csdn.net/blog/xbinworld/44284293
* lasso可以做特征选择(转化为求解次梯度:owl-qn)
自变量选择对于估计和预测的影响
- 全模型与选模型
全模型 :设因变量为 m 个:y=β0+β1x1,⋯,+βmxm+ε
选模型: 从m中选择p个模型
y=β0p+β1px1,⋯,+βmpxp+εp
=> 性质(证明略)
- 选模型预测值是有偏估计(劣势)
- 选模型预测的残差小(优势)
- 选模型有可能预测的均方误差比全模型小
=> 自变量的选择是有益的
子集回归的选择
从m个选择p的方法有 Cpm =>总是是 2m个
自变量的选择准则:m个自变量的回归建模,所有可能子集为 2m 如何选择最优子集
=>残差平方和SSE最小的回归方差最好;
(SSE=残差平方和= (yi−yi^)2 )
- ∑i=1n(yi−y¯)2=∑i=1n(yi^−y¯)2+∑i=1n(yi−y^)2
∑i=1n(yi−y¯)2
: 总离差平方和=SST
∑i=1n(yi^−y¯)2:回归平方和=SSR
∑i=1n(yi−y^)2:残差平方和=SSE
- 记:增加一个变量后 SSEp => SSEp+1
增减变量后, SSEP+1≤SSEP
- 记:复决定系数: R2P+1=1−SSEp+1SST;R2P=1−SSEpSST
因为:SST于自变量无关,所以 R2p+1≥R2p
准则1. 自由度调整复决定系数达到最大
准则2. 赤池信息量AIC达到最小(AIC最小的为最优的): AIC=NLN(SSSE)+2P
准则3.
Cp
统计量达到最小
- 上述方法:遍历 2m−1 个子集,按照准则选择最优;
逐步回归
- F检验(方差齐性检验)
∑i=1n(yi−y¯)2=∑i=1n(yi^−y¯)2+∑i=1n(yi−y^)2
∑i=1n(yi−y¯)2:总离差平方和=SST
∑i=1n(yi^−y¯)2:回归平方和=SSR
∑i=1n(yi−y^)2:残差平方和=SSE
SST=SSR+SSE
检查自变量 x1,...xp 从整体上是否对随机变量y有明显的影响
F=SSR/PSSE(N−P+1)
- 前进法
- 后退法
- 逐步回归法