CCF2020企业非法集资风险预测-季军方案
原创 四位靓仔 ChallengeHub 公众号
大家好,我们是四位靓仔团队,团队成员有:致Great、lrhao、姜小帅、朋飞,感谢队友们的辛勤付出;此次赛题有四千多人参加、三千多只队伍,作为常见的风控模型,也是最卷的赛题,本次比赛也是在答辩之后取得季军的成绩。
01 赛题背景
-
非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。
-
如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。
-
赛题链接:https://www.datafountain.cn/competitions/469/ranking?isRedance=0&sch=1722
02 赛题难点
-
企业信息表过多,如何筛选有效的企业画像信息
-
线上线下不一致,如何保证单模模型的稳定性 & 泛化性能
03 方案框架
作为风控领域题目,其实能够构建衍生特征去体现用户画像与非法集资的概率联系,其实就足够了;如果能够去进行不同模型融合保证稳定性自然是更好的,但是我们在融合之后,没有显著收益,因此最后也只用了LGB单模型。
04 特征工程--企业画像与资产交易
在构建特征部分,我们考虑挑选一些重要的用户画像特征以及一些重要的资产交易特征,进行特征的交互构建统计量特征。在这一部分构建的特征较多,但是由于个人时间原因,我们没有考虑进行特征的筛选一些方法,但是的确是一个优化的方向。
05 特征工程 -- 企业画像概率分布特征
我们对一些重要的用户画像和资产特征做了目标编码特征,其中数值型特征可以考虑先进行数值分箱再进行目标编码
在一些其他特征构建中,比如对企业变更信息表构建序列,使用Embedding技术构建Embedding向量,但是在我们的线上收益很小。
06 最佳参数&阈值搜索--基于模型稳定
最后也是对模型参数使用了一些参数调优方法以及线下最佳阈值的搜索,寻找0-1的分割临界点。
07 方案总结
END
-
欢迎扫码关注ChallengeHub学习交流群,关注公众号:ChallengeHub
或者添加以下成员的微信,进入微信群: