![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据竞赛
Sigyc
这个作者很懒,什么都没留下…
展开
-
连续值特征分桶区间设置
连续值特征分桶区间设置依靠实际意义依靠数学分析oddsWOEIV值等宽等频K-means卡方统计我们实际遇到的数据经常会是连续取值的数据,比如一些表示计数或者量级的属性。有些模型比如常用的梯度提升树系列(GBDT,XGB,LGB)可以不做任何处理的直接输入;也有些模型(lr,nn)把数值属性去除量纲后就可以作为输入;但是一般为了方便处理或者提取出更有用的信息我们会做分桶或者说分箱处理。设置几个阈值把总的取值区间划分为几个小区间,每个样本的取值就会落在其中一个区间,如果阈值设置的好的话相当于人工原创 2020-06-27 22:50:21 · 1829 阅读 · 0 评论 -
从经典到深度学习的数据补全
数据补全方法MissForestGAINMissForestGAIN原创 2020-06-15 21:42:27 · 6822 阅读 · 2 评论 -
模型融合Stacking和Blending
模型融合BlendingStacking区别各种比赛中常常见到在特征工程和调参取不到太大的进步的时候,转而进行模型融合操作。常用方法用Stcaking和Blending,该文记录一下学习使用中的情况。Blending数据划分为不相交的部分,一部分用来训练不同的 Base Model,将它们对另外部分的数据输出取(加权)平均。实现简单,但对训练数据利用少了。可以通过对输出组合成一份数据,在其上训练一个LR模型。要求个别单模型效果要好而且模型之间有差异。Stackingstacking可以看作是复杂原创 2020-06-12 22:15:17 · 273 阅读 · 0 评论 -
Pandas处理数据的一些常用技巧
利用Pandas处理数据时遇到的一些常见文件以及处理方法原创 2020-06-07 17:33:44 · 299 阅读 · 0 评论