这次比赛的最大感受就是:别掉以轻心,初赛和复赛开始我们成绩一直在前边,导致心态太翘,该尝试的探索的其他模型没有去做,光在特征上按照初赛思路去做,没有绝杀技,导致有后手的把我们ko了。惨痛教训。。。
-------------------------------------------------------------------------------------------------------
这个题目和kaggle上的TalkingData很像,所以kaggle那个第二,在这个比赛里拿了第一。(因果关系可能有问题,但是有幸运因素在里面,让他们赚了),下面是kaggle那个比赛的前十名分享:
=======================================================
第一名思路:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56475
第二名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56328
第三名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56262
第四名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56268
第四名部分代码:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56545
第五名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56406
第五名续:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56319
第六名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56283
第八名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56325
https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56105
第九名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56279
第11名:https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56250
--------------------------------------------------------------------------------------------------------------
关于我们的成绩:初赛第四,复赛最后被绝杀,第19。挺遗憾的。哎。
模型选择:
xgb,lgb。(catboost我试了一下效果不好,速度也很慢,可能是我用的方法不好),stacking效果一般。
其他队伍有用NN,embedding,countvector,贝叶斯平滑,FFM,FM,DEEPFM,NFM,NFFM,DCN,DIN(据说效果一般),AFFM(效果不错:FFM+attention)
特征工程:
模拟退火筛特征(蛇佬分享)https://github.com/luoda888/tianchi-diabetes-top12/
我们的特征:https://github.com/leiseraiesecqd/IJCA2018--/blob/master/feature_enginnering