特征选择 : 最优化搜索 与 特征背后

周一王博士将对船价格影响最大的特征:Fuel180(船用油)价格 和 北方到乍浦(2-3W)神海价格(因为乍浦最靠近目标港口)加入回归模型。 对剩下的80多个特征,我们分别用周三周四的时间各自进行了选择。

特征太多。我尝试将p_value<0.05的所有特征放进回归模型,效果并不好。因此,一狠心,做了个遗传算法,将之前选的特征事先跳出来,对剩下的特征进行提取。设置迭代为300代,最后的结果是选出26个特征,加上原来的,有31个特征。mae为5.86,比之前的mae提高将近0.5, 我觉得挺好。

 

但周五例会跟王博士展示时这种方法受到了批评,选择的特征中有许多是跟目标关系很小的。我们在看训练后的线性回归模型,coef_>0.05的只有6个。这些特征加上之前的15个,最后训练得到的模型的mae为6。

因此,最优化搜索并不是特征选择的绝杀,还是要考虑与特征与目标的关系。

 

另:

猜想: 在训练模型之前并没有将数据归一化,我们猜测有数值比较大的列(6000-8000),数值比较小的列(0.06-0.08),可能会影响系数,导致有的系数过小(<0.05,可认为系数无关)。可以做一下归一化数据后建模,看有没有影响。

 

查看误差项和剩余特征的相关性,继续选择相关性较强的特征加入。

 

总结,特征选择要挖掘特征与目标变量的关系,而不是直接搜索。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值