数据挖掘项目：金融银行风控信用评分卡模型（上篇）

Soda kun

已于 2023-04-25 21:25:10 修改

阅读量4k

点赞数 5

文章标签： python 数据挖掘机器学习数据分析金融

于 2023-04-25 14:19:45 首次发布

本文链接：https://blog.csdn.net/m0_63186866/article/details/130351499

版权

数据来自Kaggle的Give Me Some Credit，有15万条的样本数据，网上的分析说明有很多，本人结合其他大佬的方法，对数据进行细致的分析，主要分析在EDA环节，之后尝试使用toad这个评分卡的库，以及使用quct结合卡方检验分箱的方法，使用AUC和KS，结合交叉验证对比分析哪个效果更好。

(4)变量选择，主要是通过统计学的方法，筛选出对违约状态影响最显著的指标。常见的特征筛选方法，一般分为三种：过滤法、嵌入法、包装法。过滤法一般采用sklearn当中的方差过滤和卡方过滤。嵌入法是一种让算法自己决定使用哪些特征的方法。包装法和嵌入法很像，但包装法需要使用一个目标函数作为黑盒来帮助选择特征。一般来说对于评分卡模型，还会使用woe值和IV值筛选特征。

(5)模型开发，该步骤主要包括变量分段、变量的WOE（证据权重）变换和逻辑回归估算三部分。

(6)模型评估，一般评分卡中常用的评估方法，有Accuracy计算准确性、画出ROC曲线、计算AUC数值、还有KS值、最后做一个交叉验证看模型的稳定性。

(7)最后一步就是形成评分卡

2.1数据获取

## 导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression as LR  ##调用sklearn逻辑回归
from imblearn.over_sampling import SMOTE  ## 处理数据不平衡问题
import seaborn as sns
# 画图显示中文
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

data = pd.read_csv(r"rankingcard.csv",index_col = 0) ##首先导入训练集数据
test = pd.read_csv(r"cs-test.csv",index_col = 0)  ##导入测试集数据

2.2探索数据

#观察数据类型
data.head()

## 查看训练集数据
test.head()

# 观察数据维度
print(data.shape)
print(test.shape)
(150000, 11)
(101503, 11)

data.info()   ##查看里面的基本情况，字符类型以及缺失值情况

下面可以看到数据的大致情况。数据属于个人消费类贷款，只考虑信用评分最终实施能够使用到的数据应从如下一些方面获取数据：

基本属性:包括借款人当时的年龄。

偿债能力:包括了借款人的月收入、负债比率。

信用往来:两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天或以上的逾期次数

财产状况:包括了开放式信贷和贷款数量、不动产贷款或额度数量

贷款属性:暂无

其他因素:包括了借款人的家属数量(不包括本人在内)

时间窗口:自变量的观察窗口为过去两年,因变量表现窗口为未来两年。

标签如下所示：

SeriousDlqin2yrs：指在过去两年中至少有一次逾期90天或更长时间的信用违约情况。是本数据集的目标变量。

RevolvingUtilizationOfUnsecuredLines：指信用卡和个人信贷余额与可用信贷额度之比。

age：指借款人的年龄。

NumberOfTime30-59DaysPastDueNotWorse：指在过去两年中出现了30-59天的逾期但没有更严重的逾期情况的次数。

DebtRatio：指负债比率，即每月债务支付、赡养费用和生活费用除以每月总收入。

MonthlyIncome：指借款人的月收入。

NumberOfOpenCreditLinesAndLoans：指借款人未偿还的信用额度。

NumberOfTimes90DaysLate：指在过去两年中出现了90天或更长时间的逾期情况的次数。

NumberRealEstateLoansOrLines：指不包括家庭住房在内的房地产贷款和额外的抵押贷款次数。

NumberOfTime60-89DaysPastDueNotWorse：指在过去两年中出现了60-89天的逾期但没有更严重的逾期情况的次数。

NumberOfDependents：指借款人在家庭中需要抚养的家属人数。

##去除重复值,注意去除的是重复的行,因为对于150000行的数据，
##存在两组完全一样的数据几乎不太可能，有可能是录入错误
data.drop_duplicates(inplace = True)   ##删除重复值，并且替换
data.info()

##删除后一定要记得恢复索引!
data.index = range(data.shape[0])

2.3 EDA 探索性数据分析

2.3.1 缺失值分析

##探索一下模型的缺失值
data.isnull().sum()   ##用isnull语句＋sum语句，返回布尔值相加，得到每列缺失值的数目

data.isnull().sum()/len(data)  ##判断每一列缺失值所占的比值

2.3.2 数据平衡性

## 画饼图
figure,ax = plt.subplots(figsize = (12,4))
data.SeriousDlqin2yrs.value_counts().plot.pie(autopct = '%1.1f%%')

最低0.47元/天解锁文章

Soda kun

关注

5
点赞
踩
79

收藏

觉得还不错? 一键收藏
12
评论
数据挖掘项目：金融银行风控信用评分卡模型（上篇）

银行领域评分卡一般分为四种，A、B、C、F卡：A卡表示为贷前评分卡。B卡表示为贷中评分卡。C卡表示为贷后评分卡。F卡表示为反欺诈评分卡。通过对数据进行探索性分析，更加了解数据，从中观察出数据的一些规律和问题，这样在后续的预处理过程中，也能有些思路。接下来是对数据进行分箱。使用toad这个专门的评分卡库自动分箱并构建逻辑回归模型来进行预测，并利用ROC-AUC和KS进行评估。再和使用手动分箱的方式进行对比，最后建立评分卡。
复制链接

扫一扫