实战人品预测之三_向高手学习

最新推荐文章于 2024-06-10 17:47:36 发布

xieyan0811

最新推荐文章于 2024-06-10 17:47:36 发布

阅读量534

点赞数

分类专栏：算法实战文章标签： xgboost svm 大数据

本文链接：https://blog.csdn.net/xieyan0811/article/details/78729235

版权

算法实战专栏收录该内容

28 篇文章 7 订阅

订阅专栏

这是本系列“实战人品预测”的最后一篇：向高手学习。在之前的两篇：《实战人品预测之一 国内大数据竞赛平台》和《实战人品预测之二热门模型xgboost》中我们尝试了DataCastle平台的“微额借款用户人品预测大赛”，对数据不做任何处理，仅用xgboost模型，经过50000次迭代，最终得分0.70，据说该代码最高得分可到0.717。距比赛中的最高分0.734仅0.017之差。前400名得分均在0.70以上，这最后的差距究竟在哪？
本篇以学习冠军“不得直视本王”（后简称大王）的竞赛报告书和代码的方式，向大王致敬，同时对比自己的不足，开拓思路，学习一些书本上没有的实战技巧。
竞赛报告书原文： http://blog.csdn.net/bryan__/article/details/50977513，内附源码地址。

１. 思路

我们看到大多数挖掘比赛都不修改模型，甚至上来就直接代入xgboost。参赛者的主要的工作是：特征工程，模型调参，组合模型。模型调参在上篇上已经详细说过了，本篇以介绍特征工程和组合模型为主。

２. 特征工程

下面列出了大王在特征工程中所做的工作，带*的是一些较新的思路。

(1) 样本与缺失值 *

统计各样本的缺失值数据，把缺失值个数也作为一个特征，并用它排序，做图观测缺失值的分布规律。并剔除缺失值高于某一边界值的数据。

(2) One-Hot Encoding

有些算法只支持数值型数据，在枚举字段到数值型的转换过程中，如果把“男”，“女”，“小孩”，变为0,1,2，则“男”与“小孩”间的距离为２，大于“男”与“女”间的距离，这并不合理。于是变为{0,0,1},{0,1,0},{1,0,0}，这就是One-Hot编码。
具体实现使用工具：from sklearn.preprocessing import OneHotEncoder

(3) 排序特征 *

如果表中存储的是期末考试成绩，实例是人，特征是科目，那么排序特征就是某人在此科目的排名。这么做是为了加强对异常数据鲁棒性。
实现方法形如：
test_rank['r'+feature] = test[feature].rank(method='max')
大王代码中的svm就是用排序特征做的，成绩0.69。