广东工业天池龙珠计划-金融风控训练营
本文学习与引用的是天池龙珠计划 金融风控训练营的Task One内容,链接如下:
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.2.80b34d57hhV5av&postId=170948
学习知识点概要
- 正如这次所列举的一样,本次Task One是让我们对这次比赛有初步的认识,并且给出了简单的代码与相关库的运用,让我们进行了初步的学习。
- 并且给了模型的相关概念与金融方面的一些必要知识,也让我对金融领域的相关专业概念有了初步的认识,便于我后续的建模挖掘与分析的学习
学习内容
赛题的个人理解
是根据已经提供的几十万数据集,运用到数据分析,数据挖掘以及机器学习的相关知识,给他建立合适的模型,从而进行金融风控的判断。
数据集里面的轴索引所代表的意思
- id 为贷款清单分配的唯一信用证标识
- loanAmnt 贷款金额
- term 贷款期限(year)
- interestRate 贷款利率
- installment 分期付款金额
- grade 贷款等级
- subGrade 贷款等级之子级
- employmentTitle 就业职称
- employmentLength 就业年限(年)
- homeOwnership 借款人在登记时提供的房屋所有权状况
- annualIncome 年收入
- verificationStatus 验证状态
- issueDate 贷款发放的月份
- purpose 借款人在贷款申请时的贷款用途类别
- postCode 借款人在贷款申请中提供的邮政编码的前3位数字
- regionCode 地区编码
- dti 债务收入比
- delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
- ficoRangeLow 借款人在贷款发放时的fico所属的下限范围
- ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
- openAcc 借款人信用档案中未结信用额度的数量
- pubRec 贬损公共记录的数量
- pubRecBankruptcies 公开记录清除的数量
- revolBal 信贷周转余额合计
- revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
- totalAcc 借款人信用档案中当前的信用额度总数
- initialListStatus 贷款的初始列表状态
- applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
- earliesCreditLine 借款人最早报告的信用额度开立的月份
- title 借款人提供的贷款名称
- policyCode 公开可用的策略代码=1新产品不公开可用的策略代码=2
- n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理
可以看到给出了特别多的不同方面的信息,指标维度很多,对我们相关维度的处理有着较高的要求。
本次比赛的评价指标AUC
竞赛采用AUC作为评价指标。
并且也稍微解释了金融相关方面的知识,看了相关解释对本次比赛的评价指标有了初步的认识。
需要我们建立合适的模型判断KS的值,当然KS值的范围也是有所要求的
KS(%) | 好坏区分能力 |
---|---|
20以下 | 不建议采用 |
20-40 | 较好 |
41-50 | 良好 |
51-60 | 很强 |
61-75 | 非常强 |
75以上 | 过于高,疑似存在问题 |
pandas的基本操作
- 数据的导入
- 数据的查看
计算混淆矩阵
代码详细的写出了混淆矩阵的实现过程。
计算Ks值
并且还运用了数据可视化来表现计算有关KS值所需要的ROC曲线
评分卡的基本概念
了解到了评分卡的基本概念。
- 评分卡是一张拥有分数刻度会让相应阈值的表。信用评分卡是用于用户信用的一张刻度表。以下代码是一个非标准评分卡的代码流程,用于刻画用户的信用评分。评分卡是金融风控中常用的一种对于用户信用进行刻画的手段。
学习问题与解答
1.sklean的库是什么?在数学领域有什么作用以及其特点?
Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:
- 简单高效的数据挖掘和数据分析工具
- 让每个人能够在复杂环境中重复使用
- 建立NumPy、Scipy、MatPlotLib之上
爱折腾的大懒猪 https://www.jianshu.com/p/6ada34655862 Python之Sklearn使用教程
2.什么是混淆矩阵?有什么作用?
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。 在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。
混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目:第一行第一列中的43表示有43个实际归属第一类的实例被预测为第一类,同理,第一行第二列的2表示有2个实际归属为第一类的实例被错误预测为第二类。
百度百科 https://baike.baidu.com/item/%E6%B7%B7%E6%B7%86%E7%9F%A9%E9%98%B5/10087822?fr=aladdin 混淆矩阵
学习思考与总结
本次Task One是对这次金融风控大赛的解释,也简单讲解了相关专业的金融知识,并且我对计算KS值、混淆矩阵以及sklean库的强大有了初步的了解与认识,这次比赛提供的数据量很多,指标很多,对我们建模能力无疑是一种考验,虽然好像不简单,但我会通过后续十多天的学习,努力完成最后的学习任务,参加最后的比赛!