sklearn专题五：用逻辑回归制作评分卡

最新推荐文章于 2022-09-11 15:58:50 发布

Colorfully_lu

最新推荐文章于 2022-09-11 15:58:50 发布

阅读量1k

点赞数 2

文章标签： sklearn 逻辑回归人工智能

本文链接：https://blog.csdn.net/Colorfully_lu/article/details/122061867

版权

3.2.4 为什么不统一量纲，也不标准化数据分布？

3.3.4 卡方检验，合并箱体，画出IV曲线

3.3.5 用最佳分箱个数分箱，并验证分箱结果

3.3.6 将选取最佳分箱个数的过程包装为函数

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行等金融机构）造成经济损失的可能性。一般来说，评分卡打出的分数越高，客户的信用越好，风险越小。

这些 ” 借钱的人 “，可能是个人，有可能是有需求的公司和企业。对于企业来说，我们按照融资主体的融资用途，分别使用企业融资模型，现金流融资模型，项目融资模型等模型。而对于个人来说，我们有 ” 四张卡 “来评判个人的信用程度： A 卡， B 卡， C 卡和 F 卡。而众人常说的 “ 评分卡 ” 其实是指 A卡，又称为申请者评级模型，主要应用于相关融资类业务中 新用户的主体评级，即判断金融机构是否应该借钱给一个新用户，如果这个人的风险太高，我们可以拒绝贷款。

一个完整的模型开发，需要有以下流程：

今天我们以个人消费类贷款数据，来为大家简单介绍 A 卡的建模和制作流程，由于时间有限，我们的核心会在 ”数据清洗 “ 和 “ 模型开发 ” 上。模型检验与评估也非常重要，但是在今天的课中，内容已经太多，我们就不再去赘述了。

3.1 导库，获取数据

%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression as LR

在银行系统中，这个数据通常使来自于其他部门的同事的收集，因此千万别忘记抓住给你数据的人，问问她/他各个项都是什么含义。通常来说，当特征非常多的时候（比如几百个），都会有一个附带的excel或pdf文档给到你，备注了各个特征都是什么含义。这种情况下其实要一个个去看还是非常困难，所以如果特征很多，建议先做降维，具体参考“2.2.2 逻辑回归中的特征工程”。

data = pd.read_csv(r"E:\数据分析师学习\data\rankingcard.csv"
                   ,engine = 'python'
                   ,index_col=0)

3.2 探索数据与数据预处理

在这一步我们要样本总体的大概情况，比如查看缺失值，量纲是否统一，是否需要做哑变量等等。其实数据的探索和数据的预处理并不是完全分开的，并不一定非要先做哪一个，因此这个顺序只是供大家参考。

3.2.1 去除重复值

现实数据，尤其是银行业数据，可能会存在的一个问题就是样本重复，即有超过一行的样本所显示的所有特征都一样。有时候可能时人为输入重复，有时候可能是系统录入重复，总而言之我们必须对数据进行去重处理。可能有人会说，难道不可能出现说两个样本的特征就是一模一样，但他们是两个样本吗？比如，两个人，一模一样的名字，年龄，性别，学历，工资 ……当特征量很少的时候，这的确是有可能的，但一些指标，比如说家属人数，月收入，已借有的房地产贷款数量等等，几乎不可能都出现一样。尤其是银行业数据经常是几百个特征，所有特征都一样的

可能性是微乎其微的。即便真的出现了如此极端的情况，我们也可以当作是少量信息损失，将这条记录当作重复值除去。

#去除重复值
data.drop_duplicates(inplace=True)
data.info()

#删除之后千万不要忘记，恢复索引
data.index = range(data.shape[0])
data.info()

3.2.2 填补缺失值

#探索缺失值
data.info()

第二个要面临的问题，就是缺失值。在这里我们需要填补的特征是 “ 收入 ” 和 “ 家属人数 ” 。 “ 家属人数 ”缺失很少，仅缺失了大约 2.5% ，可以考虑直接删除，或者使用均值来填补。 “ 收入 ” 缺失了几乎 20% ，并且我们知道， “ 收入 ”必然是一个对信用评分来说很重要的因素，因此这个特征必须要进行填补。在这里，我们使用均值填补 “ 家属人数 ” 。

data["NumberOfDependents"].fillna(int(data["NumberOfDependents"].mean()),inplace=True) #如果你选择的是删除那些缺失了2.5%的特征，千万记得恢复索引哟~
data.info()
data.isnull().sum()/data.shape[0]

那字段 " 收入 " 怎么办呢？对于银行数据来说，我们甚至可以有这样的推断：一个来借钱的人应该是会知道， “高收入 ” 或者 “ 稳定收入 ” 于他 /她自己而言会是申请贷款过程中的一个助力，因此如果收入稳定良好的人，肯定会倾向于写上自己的收入情况，那么这些“收入”栏缺失的人，更可能是收入状况不稳定或收入比较低的人。基于这种判断，我们可以用比如说，四分位数来填补缺失值，把所有收入为空的客户都当成是低收入人群。当然了，也有可能这些缺失是银行数据收集过程中的失误，我们并无法判断为什么收入栏会有缺失，所以我们的推断也有可能是不正确的。具体采用什么样的手段填补缺失值，要和业务人员去沟通，观察缺失值是如何产生的。在这里，我们使用随机森林填补 “ 收入 ” 。

还记得我们用随机森林填补缺失值的案例么？随机森林利用 “ 既然我可以使用 A ， B ， C 去预测 Z，那我也可以使用A ， C ， Z 去预测 B” 的思想来填补缺失值。对于一个有 n 个特征的数据来说，其中特征 T 有缺失值，我们就把特征 T当作标签，其他的 n-1 个特征和原本的标签组成新的特征矩阵。那对于 T来说，它没有缺失的部分，就是我们的Y_train ，这部分数据既有标签也有特征，而它缺失的部分，只有特征没有标签，就是我们需要预测的部分。

特征 T 不缺失的值对应的其他 n-1 个特征 + 本来的标签： X_train 特征 T 不缺失的值： Y_train 特征 T缺失的值对应的其他 n-1 个特征 + 本来的标签： X_test 特征 T缺失的值：未知，我们需要预测的Y_test这种做法，对于某一个特征大量缺失，其他特征却很完整的情况，非常适用。更具体地，大家可以回到随机森林地课中去复习。

之前我们所做的随机森林填补缺失值的案例中，我们面临整个数据集中多个特征都有缺失的情况，因此要先对特征排序，遍历所有特征来进行填补。这次我们只需要填补 “ 收入 ”一个特征，就无需循环那么麻烦了，可以直接对这一列进行填补。我们来写一个能够填补任何列的函数：

def fill_missing_rf(X,y,to_fill):

    """
    使用随机森林填补一个特征的缺失值的函数

    参数：
    X：要填补的特征矩阵
    y：完整的，没有缺失值的标签
    to_fill：字符串，要填补的那一列的名称
    """

    #构建我们的新特征矩阵和新标签
    df = X.copy()
    fill = df.loc[:,to_fill]
    df = pd.concat([df.loc[:,df.columns != to_fill],pd.DataFrame(y)],axis=1)

    # 找出我们的训练集和测试集
    Ytrain = fill[fill.notnull()]
    Ytest = fill[fill.isnull()]
    Xtrain = df.iloc[Ytrain.index,:]
    Xtest = df.iloc[Ytest.index,:]

    #用随机森林回归来填补缺失值
    from sklearn.ensemble import RandomForestRegressor as rfr
    rfr = rfr(n_estimators=100)
    rfr = rfr.fit(Xtrain, Ytrain)
    Ypredict = rfr.predict(Xtest)

    return Ypredict

最低0.47元/天解锁文章

Colorfully_lu

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
sklearn专题五：用逻辑回归制作评分卡

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行等金融机构）造成经济损失的可能性。一般来说，评分卡打出的分数越高，客户的信用越好，风险越小。这些”借钱的人“，可能是个人，有可能是有需求的公司和企业。对于企业来说，我们按照融资主体的融资用途，分别使用企业融资模型，现金流融资模型，项目融资模型等模型。而对于个人来说，我们有”四张卡“来评判个人的信用程度：A卡，B卡，C
复制链接

扫一扫