Porto Seguro’s Safe Driver Prediction是一道回归预测题,参赛者需要根据数据给出某个保险实例是否会出发赔款的概率。该题有5000+人参加,近期也结赛了。最终我的排名1000+,离前20%只差一点点,有些可惜。不过这一次比赛中还是学到了很多东西。列出参考的notebook链接:
EDA:
Interactive Porto Insights - A Plot.ly Tutorial | Kaggle
该kaggler使用了stacking的方法。第一层模型使用了调参过的三个lgb(lightGBM)模型,第二层使用了logisticRegression进行拟合:
Simple Stacker LB 0.284 | Kaggle
Kaggle机器学习之模型融合(stacking)心得
本次比赛采用了gini系数作为评测指标。事实证明,在比赛中理解评测指标的原理是十分重要的,它能作为模型优化方向的重要参考。gini系数的详细解释:
Gini Coefficient - An Intuitive Ex