2017.08.01回顾 xgboost get_dummies 尽可能留变量

最新推荐文章于 2024-05-13 10:48:20 发布

strwolf

最新推荐文章于 2024-05-13 10:48:20 发布

阅读量1.3k

点赞数

分类专栏：日记 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/strwolf/article/details/76570539

版权

节奏不要乱，做应该做的事情，一些不应该做的事情需要克制！

1、上午就是抓取建模变量，对变量做一些初步encode的工作，集中注意力弄了一上午，应该完成了1/3

2 、继续zillow数据建模，有几点收获：

xgboost的基分类器是CART，但是也可以用线性分类器，booster参数可以设置，似乎还有一个名叫dart的分类器，听朋友说是神经网络相关的
整理了所有变量的预处理方法
尝试了drop掉90% missing value的字段，但是在lb上效果很烂，CV好像是有所提升
又尝试drop掉了一些地区类的字段，也没能提升lb的排名
感觉到xgboost的这个方法根本不怕多喂他变量，不怕处理高度缺失值的变量
最后我尝试把某些变量转换成哑变量，方法是直接调用pd.get_dummies方法，这个方法有参数可以控制是否转换NaN，他常用参数形如
```
pd.get_dummies(df,prefix=['col1','col2'])
```
后面的prefix前缀于前面的df列数相对应，如果后面prefix少一个，前面有一列就不会被dummy，这个函数返回一个dummy化的DF，添加到原raw_df可以用
```
raw_df = raw_df.join(df)
```
可以添加到raw_df后面
添加了dummies变量后，交叉验证mae下降了，感觉有一定希望，但是xgb.DMatrix转换300万*156太慢了，跑了一个小

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2017.08.01回顾 xgboost get_dummies 尽可能留变量

节奏不要乱，做应该做的事情，一些不应该做的事情需要克制！1、上午就是抓取建模变量，对变量做一些初步encode的工作，集中注意力弄了一上午，应该完成了1/32 、继续zillow数据建模，有几点收获：xgboost的基分类器是CART，但是也可以用线性分类器，booster参数可以设置，似乎还有一个名叫dart的分类器，听朋友说是神经网络相关的整理了所有变量的预处理方法尝试了d
复制链接

扫一扫

专栏目录

strwolf CSDN认证博客专家 CSDN认证企业博客

码龄16年

336: 原创

13万+: 周排名

75万+: 总排名

31万+: 访问

: 等级

6027: 积分

84: 粉丝

35: 获赞

28: 评论

70: 收藏

私信

关注

热门文章

分类专栏

后端 8篇
前端 5篇
日记 290篇
python 70篇
爬虫
数据库 30篇
javascript 5篇
PHP 17篇
Django 4篇
算法 20篇
统计学 7篇
http 2篇
XSS 1篇
SQL注入 3篇
linux 19篇
linux 1篇
文本挖掘 1篇
echarts 6篇
logistic 12篇
编码 3篇
信用评分 29篇
excel 7篇
版本控制 3篇
R 1篇
web容器
股票 14篇
机器学习 1篇

最新评论

百度cookie使用分析
Fasy丶逝言: undefined
centos基本命令 vim基本命令 2016.04.26回顾
苜苜的烂笔头: 厉害，赞一个,欢迎回赞哦~
量化还是风控？
stuay: 三年过去了，所以仁兄还在搞风控么？纯好奇，哈哈。
2017.05.19回顾 TSS = ESS + RSS证明
征程万里: 可以说因为多元回归的基本假设之一是E（μ）=0，e是μ的无偏估计量，所以∑e/n=E(μ）=0,样本一阶矩估计总体一阶矩吗...不知这样是否合理，请指教。
2017.05.05回顾关于决策边界的一些思考
wencai1661: 楼主你好，你说的bad rate很低的数据集指的是什么样的数据集

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。