数据挖掘实训周报week1

本次实训的课题还是数据挖掘,实训的形式主要以天池的比赛为主。

第一项比赛为《零基础入门金融风控-贷款违约预测》,赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,是一个典型的分类问题。

关于分类问题,之前的课程和一些项目都有涉及过,比如之前的数据挖掘课程做的便是表情识别的分类器。图象的分类,有着明确的判别标准,像与不像,表情的类别等等。而本次的金融类分类,初识数据不知从何处入手,并没有给出的“47列变量信息”和“是否可以贷款”之间关系的概念。这是这个比赛的下手难点。

然后首先跟着参考资料的视频进行了学习。第一个了解到的重点是AUC。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。

ROC的全名叫做Receiver Operating Characteristic,其主要分析工具是一个画在二维平面上的曲线——ROC curve。平面的横坐标是false positive rate(FPR),纵坐标是true positive rate(TPR)。对某个分类器而言,我们可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样,此分类器就可以映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值,我们就可以得到一个经过(0, 0),(1, 1)的曲线,这就是此分类器的ROC曲线。在这里插入图片描述
ROC曲线其实是多个混淆矩阵的结果组合。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。因为(0, 0)和(1, 1)连线形成的ROC曲线实

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值