task01:赛题理解

零基础入门金融风控-贷款违约预测
task01:赛题理解

完全是好奇心驱使,在基本没有基础的情况下,看能不能通过一次课程(比赛)掌握机器学习的一般方法。我想,只要坚持到了最后,全程经历了这个过程,一定会有所成。

关于赛题理解,个人认为主要需要做三件事:

  1. 阅读“赛题理解", 搞清楚要解决的是什么问题,以及基本的思路和方法;
  2. 下载数据包,通过数据理解一下业务场景,并观察数据的基本特点;
  3. 理解对于预测结果的评价标准,同时从评价标准反推,反过来进一步构思解决方法。

so,开始吧。
赛题理解其实在公开的链接中已经很清楚了,贴在这里:
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task1%20%E8%B5%9B%E9%A2%98%E7%90%86%E8%A7%A3.md

我摘录几个我认为重要的点:
在这里插入图片描述
在这里插入图片描述

  • 任务是根据贷款申请人的数据信息预测其是否有违约的可能,意思是输入了贷款申请人相关的信息,则需要输出该贷款申请人违约的可能性
  • 有47列变量,这些变量是否具有关联性,对预测的准确性影响权重如何,都需要探索
  • 有80万条数据作为训练集,20万作为测试集,因此目标是通过80万数据训练生成一个模型,然后拿这20万数据带入模型跑一跑,得出这20万数据的结论
  • 这是一个分类问题,这里已经定性为分类问题了,所以后续应该使用分类相关的算法

下载数据包,按赛题理解中的步骤,下载了3个csv文件,用pandas简单查看一下:
这是训练集
这是测试集
这些数据各变量的解释在这里:
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task1%20%E8%B5%9B%E9%A2%98%E7%90%86%E8%A7%A3.md#122-%E6%95%B0%E6%8D%AE%E6%A6%82%E5%86%B5

其实用df.info()也可以一目了解查看,相关的函数还有很多。下一步我会在task02做EDA(探索性数据分析)时在应用更多的函数和方法,来探索和理解数据。

理解对于预测结果的评价标准。
“竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。”
什么是AUC,什么又是ROC?混淆矩阵的真正、假正、真负、假负的理解是基础,下面贴一下:
在这里插入图片描述

在这里插入图片描述
重点是这里:ROC空间将假正例率定义为X轴,将真正例率定义为Y轴。一个正例,意思就是一个违约,风控模型必然对违约敏感(厌恶违约),因此要尽可能把所有的正例都找出来,哪怕是错判了也好(就减少可能发生的违约了)。不过也不能极端呀,要是把所有人都判为可能违约了,那生意也就不用做了。所以一定要把要违约的判准咯,也就是Y轴(TPR)一定要高,同时X轴(FPR)要尽量低一些。
这是直观理解了,后面会越来越深入。
好了,先到这里,带着对后续的未知,打卡。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值