kaggle比赛记录——ieee_fraud_detection问题研究第一名xgboost解法心得

最新推荐文章于 2022-02-23 15:45:23 发布

Thomas_Cai

最新推荐文章于 2022-02-23 15:45:23 发布

阅读量1.2k

点赞数 1

分类专栏：时间序列

本文链接：https://blog.csdn.net/ThomasCai001/article/details/102799177

版权

8 篇文章 0 订阅

订阅专栏

首先贴上第一名大神的分享链接：
https://www.kaggle.com/c/ieee-fraud-detection/discussion/111510

一、XGB代码

这里是研究代码而做的几点笔记：

重在特征分析，包括联合两个或多个特征，联合多个特征后进行平均值和方差运算单独再成特征，计算值出现的个数（直方图）并归一化再成特征，用factorize而少用dummies处理object特征
处理特征的时候经常用astype来减小使用内存
时间一致性：每次用一个特征去进行训练预测，计算roc，低于0.5的则认定测试失败并移除该特征
对于时间的处理 - 他是直接把秒级处理成了月级
然后进行构造uid特征，并进行后处理（还没懂）

在这里插入图片描述

以下是作者寻找uids所做的操作：

对于m以前的列：（53列）

聚合特征有时用mean、std，有时用nuique，为什么？
我的理解：
（1）对于特征值是离散值的特征，如果出现的值较为单一，用mean或std
（2）对于特征值是离散值的特征，如果出现的值多样化，用nuique
（3）对于特征值是连续值的特征，用mean或std
uid和其他特征聚合，其他特征是怎么选择的？
特征之间的聚合，依据是什么？

然后对应xgb代码有一个后处理的解释，这里仍然没懂。

关注