2017.08.01回顾 xgboost get_dummies 尽可能留变量

节奏不要乱,做应该做的事情,一些不应该做的事情需要克制!

1、上午就是抓取建模变量,对变量做一些初步encode的工作,集中注意力弄了一上午,应该完成了1/3

2 、继续zillow数据建模,有几点收获:

  • xgboost的基分类器是CART,但是也可以用线性分类器,booster参数可以设置,似乎还有一个名叫dart的分类器,听朋友说是神经网络相关的
  • 整理了所有变量的预处理方法
  • 尝试了drop掉90% missing value的字段,但是在lb上效果很烂,CV好像是有所提升
  • 又尝试drop掉了一些地区类的字段,也没能提升lb的排名
  • 感觉到xgboost的这个方法根本不怕多喂他变量,不怕处理高度缺失值的变量
  • 最后我尝试把某些变量转换成哑变量,方法是直接调用pd.get_dummies方法,这个方法有参数可以控制是否转换NaN,他常用参数形如
    pd.get_dummies(df,prefix=['col1','col2'])
    后面的prefix前缀于前面的df列数相对应,如果后面prefix少一个,前面有一列就不会被dummy,这个函数返回一个dummy化的DF,添加到原raw_df可以用
    raw_df = raw_df.join(df)
    可以添加到raw_df后面
  • 添加了dummies变量后,交叉验证mae下降了,感觉有一定希望,但是xgb.DMatrix转换300万*156太慢了,跑了一个小
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值