本次实训的课题还是数据挖掘,实训的形式主要以天池的比赛为主。
第一项比赛为《零基础入门金融风控-贷款违约预测》,赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,是一个典型的分类问题。
关于分类问题,之前的课程和一些项目都有涉及过,比如之前的数据挖掘课程做的便是表情识别的分类器。图象的分类,有着明确的判别标准,像与不像,表情的类别等等。而本次的金融类分类,初识数据不知从何处入手,并没有给出的“47列变量信息”和“是否可以贷款”之间关系的概念。这是这个比赛的下手难点。
然后首先跟着参考资料的视频进行了学习。第一个了解到的重点是AUC。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。
ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR)。对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样,此分类器就可以映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值,我们就可以得到一个经过(0, 0),(1, 1)的曲线,这就是此分类器的ROC曲线。
ROC曲线其实是多个混淆矩阵的结果组合。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实