机器学习系列(18)_Kaggle债务违约预测冠军经验分享

原文:Kaggle predict consumer credit default
原文翻译与校对调整:@MOLLY && @寒小阳
时间:2016年10月。
出处:http://blog.csdn.net/han_xiaoyang/article/details/52788775
声明:版权所有,转载请联系作者并注明出

引言

债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度。这是一个极度复杂和困难的Kaggle挑战,因为银行和各种借贷机构一直都在不断地寻找和优化信用评分的算法。这个模型是银行用来判定是否准许某一笔贷款的。根据这个模型提供的信息,银行可以更好地作出决策,借贷者也可以更好地进行财务方面的规划,以免将来陷入债务危机。
本次挑战允许团队使用集成模型和算法,如XGBoost, Gradient Boosting, 随机森林(Random Forest), 限制玻尔兹曼机(Restricted Boltzman Machine Neural Networks), Adaboost。以及使用先进的堆叠技术(stacking)和投票分类器来准确地预测违约概率。
我们的测量和排名严格使用ROC曲线的AUC值。我们遵照了Agile过程,来确保我们分块、并行地完成关键的任务。我们很快地失败,又很快地在此基础上迭代,以此来确保最高效的工作和产出。我们使用复杂贝叶斯优化算法,获取最好的超参数集,大幅减少了测试和交叉验证的时间。这为我们提升排名、获得AUC最高分提供了很大的帮助。
通过我们对工具的利用、团队的协作、以及一个使我们产出最大化的流程,我们不仅跻身排名榜的前列,还打破了第一名的成绩,获得了这次挑战的冠军。

SWOT分析法

SWOT分析法让我们可以让我们思路更清晰,专注于利用我们最大的优势(Strengths),了解我们的弱点(Weaknesses),利用现有的机会(Opportunities),警惕潜在的威胁(Threats)。
SWOT方法使我们可以在正确的方向前进,避开很多令人头疼的事儿。

优势(Strengths):利用我们已有的优势

  • 利用堆叠技术和Agile过程的经验
  • 协作团队的经验和技能可以相互补充
  • 吸取之前的Kaggle挑战的经验和教训
  • 使用Agile过程处理并行工作的经验

弱势(weaknesses):我们需要提升的领域

  • 时间有限,限制了探索的深度和广度
  • 对新工具和模型的不熟悉,大大降低了我们的战斗力
  • 边做边学,拖慢了整个进程
  • 对于所使用的新技术,相关的资源十分稀少

机会(opportunities):可以利用的机会,及实践得到的经验

  • 了解如何制定策略,调整模型、算法和参数,来达到对违约几率的最佳预测
  • 在使用贝叶斯优化算法时,获得实时的经验
  • 尝试使用深度学习(Theano/Keras)来进行违约预测

威胁(threats):我们需要减轻和控制的危机

  • 数据集比较小,这对模型的泛化有较大的挑战。这影响了模型的构造,最终影响了预测的精度。
  • 对AUC的公差严格到了小数点后10,000位
  • 前5%的
  • 29
    点赞
  • 157
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值