DCIC-2019-Credit-intelligence-score-2th-Place
2019数字中国创新大赛 消费者人群画像 亚军
赛题链接:https://www.datafountain.cn/competitions/337
首先非常感谢队友neil和gotcha几个月的合作,最终拿了几个周冠军和线上第一的成绩,最终答辩第二,再接再厉
感想
NLP队伍不完整代码(只包含我这部分,后面会链接到队友gotcha的代码)。
关于此次赛题,数据上来说可挖掘潜力并不是那么大,因此各个队伍能挖掘到的特征基本都很相似
于是只能拼数据,拼模型,拼骚操作了
赛题理解与特征工程
本次赛题有些数据已经被主办方处理过,有些缺失值被用0来填充,导致一些特定的数据难以分辨是空值还是0值, 还有一些数据被主办方取整和分箱了,因此适当处理源数据会有一定提升
对于特征工程本团队主要构建了以下特征:
前五个月消费总费用 = 6 * 近六个月消费总费用 - 当月费用
当月费用 - 前六个月平均费用
当月费用 - 前五个月消费总费用/5
入网月份 = 网龄 mod 12
布尔型特征相加
年龄、网龄分箱
是否998折
count_最近一次缴费金额
count_当月总费用
count_前六个月平均费用
count_费用差
count_(当月总费用,前六个月平均费用)
模型
对于模型本团队采用的模型有lightGBM,xgboost,catboost,GB