金融风控建模实战——以某银行客户数据制作评分卡（A卡）

最新推荐文章于 2023-11-28 09:51:44 发布

––

最新推荐文章于 2023-11-28 09:51:44 发布

阅读量3.7k

点赞数 6

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/qq_43487620/article/details/107413993

版权

本文介绍了金融风控中评分卡的制作过程，包括数据预处理、异常值处理、样本不平衡问题解决、等频分箱、WOE与IV计算，以及模型验证。通过实际案例，讲解如何利用Python的numpy、pandas和scikit-learn库进行建模，并解释了评分卡在银行信贷风险管理中的应用和重要性。

摘要由CSDN通过智能技术生成

一、知识准备

1.1 熟悉Python的数据分析库numpy、pandas和scikit算法库

1. 2 熟悉逻辑回归和随机森林算法

二、项目主题

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行等金融机构），造成经济损失的可能性。一般来说，评分卡打出的分数越高，客户的信用越好，风险越小。

这些”借钱的人“，可能是个人，有可能是有需求的公司和企业。对于企业来说，我们按照融资主体的融资用途，分
别使用企业融资模型，现金流融资模型，项目融资模型等模型。而对于个人来说，我们有”四张卡“来评判个人的信用程度：A卡，B卡，C卡和F卡。而众人常说的“评分卡”其实是指A卡，又称为申请者评级模型，主要应用于相关融资类业务中新用户的主体评级，即判断金融机构是否应该借钱给一个新用户，如果这个人的风险太高，我们可以拒绝贷款。

三、项目目标

能够使用RF算法对缺失值进行补充
能够掌握样本不平衡问题
熟练掌握评分卡的分箱操作

四、知识要点

4.1 原始数据

4.1.1 导库/获取数据

%matplotlib inline 
import numpy as np 
import pandas as pd 

data = pd.read_csv("Acard.csv",index_col=0)
#观察数据类型 
data.head() 

#观察数据结构 
data.shape

data.info() # 每列的缺失值情况

4.1.2 去重复值

data.drop_duplicates(inplace=True) 

data.index = range(data.shape[0]) 
  
data.info()

4.1.3 填补缺失值

data.isnull().sum()/data.shape[0]  # data.isnull().mean() 

data["NumberOfDependents"].fillna(int(data["NumberOfDependents"].mean()),inplace=True) 
  
data.isnull().mean() 

def fill_missing_rf(X, y, to_fill):
    """
    X：要填补的特征矩阵
    y：完整的，没有缺失值的标签
    to_fill：字符串，要填补的那一列的名称/MonthlyIncome
    """
    # 构建新特征矩阵和新标签
    df = X.copy() 
    fill = df.loc[:, to_fill]
    df = pd.concat([df.loc[:, df.columns != to_fill], pd.DataFrame(y)], axis=1)

    #找出训练集和测试集
    Ytrain = fill[fill.notnull()]
    Ytest = fill[fill.isnull()]
    Xtrain = df.iloc[Ytrain.index, :]
    Xtest = df.iloc[Ytest.index, :]

    from sklearn.ensemble import RandomForestRegressor as rfr
    
    #用随机森林回归来填补缺失值
    rfr = rfr(n_estimators=100)
    rfr = rfr.fit(Xtrain, Ytrain)
    Ypredict = rfr.predict(Xtest)
    
    return Ypredict

X = data.iloc[:,1:] 
y = data["SeriousDlqin2yrs"] 

y_pred = fill_missing_rf(X,y,"MonthlyIncome") 
  
#确认我们的结果合理之后，我们就可以将数据覆盖了 
data.loc[data.loc[:,"MonthlyIncome"].isnull(),"MonthlyIncome"] = y_pred

y_pred.shape

4.2 描述性统计

4.2.1 处理异常值

import seaborn as sns
from matplotlib import pyplot as plt

x1=data['age']
fig,axes = plt.subplots()
axes.boxplot(x1)
axes.set_xticklabels(['age'])

data = data[data['age']>0]
data = data[data['age']<100]

data.describe([0.01,0.1,0.25,.5,.75,.9,.99])
(data["age"] == 0).sum() 

data = data[data["age"] != 0] 

data[data.loc[:,"NumberOfTimes90DaysLate"] > 90].count() 
  
data = data[data.loc[:,"NumberOfTimes90DaysLate"] < 90] 

data.index = range(data.shape[0]) 
data.info()