特征子集选择

特征子集选择属于特征工程的一部分,主要是因为在多个特征中,可能存在数个与响应变量无关的情况,而引入过多的特征,一方面大大增加了计算量,其次也会影响模型的评估,所以我们才需要选择与响应变量相关的变量形成特征子集。

第一种方法是最优子集选择(best subset selection),假如目前由p个特征,那么我们每次选择k个特征,从数量为k的所有可能的特征组合中得到最好的那个,这里的最好指RSS(残差平方和)最小,或者R平方最大,这样我们就得到针对不同数量的最好的特征子集了。最后,我们通过交叉验证、AIC、BIC或者R平方从这p+1(包含特征数为0的模型)个模型中选择最优模型

最优子集选择方法很容易理解,可是主要问题是计算效率低,p个特征可以构建2^p个用于建模的子集,所以当p较大时,计算量就十分大了。

除了最优子集选择,还有逐步选择(stepwise selection),逐步选择包括向前、向后和混合逐步选择。

向前逐步选择以一个不包含任何特征的null model开始,然后开始添加第一个特征,这个特征应该是能使得模型的RSS最小或R平方最大的特征,然后进一步在这个特征的基础上寻找下一个添加的特征,一直重复p次,我们就可以得到p+1个模型,然后再像最优子集选择那样选择最优的那个模型。

和最优子集选择相比,向前选择只需要考虑1+p(p+1)/2次,当p较大时考虑的数量比最优子集选择少很多,可是相对的,得到的子集未必是所有组合里面最优的。

向后逐步选择其实也是差不多的过程,只是倒了过来,以一个包含全部特征的模型开始,然后慢慢减少特征,保留能使得模型的RSS最小或R平方最大的特征,重复p次得到p+1个模型,再选择最优。

混合方法可以看成向前逐步选择的改进版,在每次添加特征的过程中,如果发现有某个特征添加了也不能提升模型的拟合效果,就剔除这个特征,在后续的过程中不再考虑它,这就使得运算效率进一步提升,不过和向前逐步选择相比就更加难找到最优的那个特征子集了。

在上述的方法中,注意到,在同样本数量的特征中选择最优的模型我们可以利用RSS和R平方,但是这两个指标往往不适合对不同特征数的模型进行选择,因此往往我们会选择其他指标。

第一个指标是Cp统计量,利用最小二乘法拟合一个包括d个特征的模型,Cp统计量在训练集RSS的基础上增加了惩罚项,它随着模型特征数量的增大而增大。

第二个指标是赤池信息量准则(AIC),适用于许多使用极大似然估计进行拟合的模型,若线性回归模型的误差服从高斯分布,极大似然估计和最小二乘估计是等价的。

第三个指标是贝叶斯信息准则(BIC),测试误差较低的模型BIC也较低,与Cp相比,BIC统计量通常给包含多个特真的模型较大的惩罚。

第四个指标是调整R^2:

a d j u s t e d R 2 = 1 − R S S / ( n − d − 1 ) T S S / ( n − 1 ) adjusted R^2 = 1 - \frac{RSS/(n-d-1)}{TSS/(n-1)} adjustedR2=1TSS/(n1)RSS/(nd1)

调整R平方越大,模型测试误差越小。

最后我们还能使用交叉验证选择最优模型。

想浏览更多关于数学、机器学习、深度学习的内容,可浏览本人博客

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值