之前参加了kaggle的一个Santander Customer Transaction Prediction比赛,共有达9038支队伍参赛,一个号称寻找magic的比赛。参加比赛的的忘不了被magic这个词所支配的恐惧...
比赛链接 https://www.kaggle.com/c/santander-customer-transaction-prediction/overview
也算是第一次kaggle正式的做比赛吧,之前做了一个kaggle的Quora的文本分类的一个比赛,但是只做了几天,最后还没选成 Final Score,所以最后也不算成绩,也不知道排了多少名。
我是前期做了几天,后来就没做了,直到最后四天才又开始每天做10个小时大概...
然后自己的成绩是 top4% for 9038 teams 。 300/9038
很可惜最后一天模型融合没跑完比赛时间就截止了,跑完的话能再升100名.....
对自己的成绩还算满意吧。
最后感谢某位大佬的指点和带飞。
下面来总结一下这个比赛自己的收获。
<!--more-->
这个比赛训练集给了20w条数据,共200个特征,都是数值型特征,都是匿名特征,并没有具体的每个特征的含义。测试集也是20w条数据。
根据这200个特征预测每个用户是否会发生交易。一个2分类问题,最后评估是ROC_AUC。
Magic
这个比赛最最重要的两个magic其实在讨论区和kernel区已经有hint了。
1、其中最重要的就是区分测试集中合成样本和真样本