关于零基础入门金融风控挑战赛的笔记系列

最新推荐文章于 2022-04-01 19:56:39 发布

SilverStar108

最新推荐文章于 2022-04-01 19:56:39 发布

阅读量758

点赞数

分类专栏：数据挖掘文章标签： python

本文链接：https://blog.csdn.net/Riolu/article/details/108612113

版权

数据挖掘专栏收录该内容

2 篇文章

订阅专栏

本文通过零基础入门的视角，详细介绍了金融风控中贷款违约预测的全流程，包括数据理解、特征工程、模型选择与调参，以及模型融合，旨在帮助初学者掌握Python在数据分析与建模中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Task1 赛题理解

赛题背景
金融行业里面，对风险控制非常严格，如果风控把握不好，那么会导致坏产等一系列恶性循环。因此，风控便成为了金融公司业务管理中重要的一环。这次，结合天池的优势，进行《零基础入门金融风控之贷款违约预测挑战赛》的练习，借此巩固python的使用和知识巩固，并对金融相关的行业和逻辑思维有更加深入的了解，对数据建模有更加系统的使用和熟悉。

一、了解数据状况
1、数据指标及其含义

` id 为贷款清单分配的唯一信用证标识

`loanAmnt 贷款金额

`term 贷款期限（year）

`interestRate 贷款利率

`installment 分期付款金额

`grade 贷款等级

`subGrade 贷款等级之子级

`employmentTitle 就业职称

`employmentLength 就业年限（年）

`homeOwnership 借款人在登记时提供的房屋所有权状况

`annualIncome 年收入

`verificationStatus 验证状态

`issueDate 贷款发放的月份

`purpose 借款人在贷款申请时的贷款用途类别

`postCode 借款人在贷款申请中提供的邮政编码的前3位数字

`regionCode 地区编码

`dti 债务收入比

`delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数

`ficoRangeLow 借款人在贷款发放时的fico所属的下限范围

`ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围

`openAcc 借款人信用档案中未结信用额度的数量

`pubRec 贬损公共记录的数量

`pubRecBankruptcies 公开记录清除的数量

`revolBal 信贷周转余额合计

`revolUtil 循环额度利用率，或借款人使用的相对于所有可用循环信贷的信贷金额

`totalAcc 借款人信用档案中当前的信用额度总数

`initialListStatus 贷款的初始列表状态

`applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请

`earliesCreditLine 借款人最早报告的信用额度开立的月份

`title 借款人提供的贷款名称

`policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2

2、常用指标
（1）混淆矩阵
在这里插入图片描述

（2）准确率（accurancy）
如果样本不均衡，那么该指标可能不够精确
（3）精确率（precision）
（4）召回率（recall）
（5）F1指标（F1 SCORE）
结合精确率和召回率的指标，兼顾性及参考性较单一指标要好
（6）P-R曲线
以召回率为横坐标，以精确率为纵坐标的曲线
（7）ROC
以假正例率（FPR）为横坐标，真正例率（TPR）为纵坐标的曲线
（8）AUC
ROC曲线与坐标轴围成的面积

在这里插入图片描述
二、描述性数据概览（分析）
目的：了解变量间的相互关系以及变量与预测值之间的存在关系。
1、数据概况了解：
加载库，读取数据集，查看数据集大小及原始特征
简单查看数据集中每个特征（字段）的数据类型
2、缺失值处理和唯一值查看

在这里插入图片描述

三、关于特征工程
#注意这里加载的第三方库，需要提前准备，因为笔者的电脑win10系统64位，运行环境为anaconda3版本，需要另外安装tqdm，xgboost，等库，愣愣是浪费了一些时间，如果教程里面可以提前预制这些第三方库安装的内容，会更友好一些。
（这也说明了我比小白还小白的事实- -）
在这里插入图片描述
（安装xgboost费了好多时间）

（终于可以开始下载了~）

（下载并安装……）

1、特征预处理
查找数据中的对象特征和数值特征

缺失值填充
时间格式处理
对象类型特征转换到数值

2、异常值处理
处理异常值的重要前提，在于异常值可不可用。如果不可用则考虑直接剔除，如果可用，则需要进行保留。

查看数据方差来判断异常值
查看箱型图来判断异常值

3、数据分箱
目的——降噪

简单小结：
特征工程在建模分析中是重要的一环，在代码调试方面也需要花费非常多的时间，要真正弄懂这个环节，需要下一番功夫才行。

四、建模与调参
目的：了解各种模型，以及模型的评价及调参方法
1 逻辑回归模型
https://blog.csdn.net/han_xiaoyang/article/details/49123419

2 决策树模型
https://blog.csdn.net/c406495762/article/details/76262487

3 GBDT模型
https://zhuanlan.zhihu.com/p/45145899

4 XGBoost模型
https://blog.csdn.net/wuzhongqiang/article/details/104854890

5 LightGBM模型
https://blog.csdn.net/wuzhongqiang/article/details/105350579

6 Catboost模型
https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA

7 时间序列模型(选学)
RNN：https://zhuanlan.zhihu.com/p/45289691
LSTM：https://zhuanlan.zhihu.com/p/83496936

再次总结：建模是一个大工程，和特征工程类似，需要强大的理论知识和扎实的代码演算经验才能顺利将其掌握。零基础入门不易，但是只要持之以恒，就一定能攻克它。
附：模型对比的优劣性
https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task4%20建模调参.md

五、模型融合
模型融合的目的，在于结合不同模型之间的优劣，取长补短，融合后的新模型，可能会有出其不意的效果。
参考资料：
1、https://blog.csdn.net/wuzhongqiang/article/details/105012739
2、https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task5%20模型融合.md

结课心得：零基础入门是不存在的，要学的知识，要推演的代码，要排除的BUG，一个都少不了，没有人会替你把前进的路上所有的石头都搬走，总会有一个人背负重任前行的时候。潜心修行，一步一个脚印，才能真正把建模拿下来，才能真正掌握用python实现数据分析的技能。一起加油吧！