使用toad库进行机器学习评分卡全流程

AIGC人工智残

已于 2023-08-03 11:27:06 修改

阅读量1.4k

点赞数 2

分类专栏：项目实战文章标签：机器学习人工智能

于 2023-08-03 11:26:03 首次发布

本文链接：https://blog.csdn.net/gjinc/article/details/132068169

版权

1 加载数据

导入模块

import pandas as pd
from sklearn.metrics import roc_auc_score,roc_curve,auc
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import numpy as np
import math
import xgboost as xgb
import toad
from toad.plot import bin_plot, badrate_plot
from matplotlib import pyplot as plt
from sklearn.preprocessing import StandardScaler
from toad.metrics import KS, F1, AUC
from toad.scorecard import ScoreCard

加载数据

 # 加载数据
df = pd.read_csv('scorecard.txt')
print(df.info())
df.head()

在这里插入图片描述

df.describe()

在这里插入图片描述

数据划分

feature_list = list(df.columns)
feature_drop = ['bad_ind','uid','samp_type']
for lt in feature_drop:
    feature_list.remove(lt)
df_dev = df[df['samp_type']=='dev']
df_val = df[df['samp_type']=='val']
df_off = df[df['samp_type']=='off']
print(feature_list)
print('dev',df_dev.shape)
print('val',df_val.shape)
print('off',df_off.shape)

在这里插入图片描述

简单数据分析

toad.detector.detect(df)

在这里插入图片描述
toad库能够同时处理数值型数据和分类型数据。由于没有缺失值，我们不用进行数据填充。

2 特征筛选

使用缺失率、IV和相关系数进行特征筛选。

# 根据缺失值、IV和相关系数进行特征筛选
dev_slt, drop_slt = toad.selection.select(df_dev, df_dev['bad_ind'], 
                                          empty=0.7, 
                                          iv=0.03, 
                                          corr=0.7, 
                                          return_drop=True, 
                                          exclude=feature_drop)
print('keep:', dev_slt.shape,';drop empty:',drop_slt['empty'].shape,';drop iv:',drop_slt['iv'].shape,';drop_corr:',drop_slt['corr'].shape)

keep: (65304, 12) ;drop empty: (0,) ;drop iv: (1,) ;drop_corr: (0,)

3 卡方分箱

使用toad库，能够对所有特征切分节点，然后进行分箱

# 使用卡方分箱
# 使用卡方分箱
cmb = toad.transform.Combiner()
cmb.fit(dev_slt, 
        dev_slt['bad_ind'], 
        method='chi', 
        min_samples=0.05, 
        exclude=feature_drop)
bins = cmb.export()
print(bins)

{‘td_score’: [0.7989831262724624], ‘jxl_score’: [0.4197048501965005], ‘mj_score’: [0.3615303943747963], ‘zzc_score’: [0.4469861520889339], ‘zcx_score’: [0.7007847486465795], ‘person_info’: [-0.2610139784946237, -0.1286774193548387, -0.0537175627240143, 0.013863440860215, 0.0626602150537634, 0.078853046594982], ‘finance_info’: [0.0476190476190476], ‘credit_info’: [0.02, 0.04, 0.11], ‘act_info’: [0.1153846153846154, 0.141025641025641, 0.1666666666666666, 0.2051282051282051, 0.2692307692307692, 0.358974358974359, 0.3974358974358974, 0.5256410256410257]}

调整分箱

绘制Bivar图，观察该特征分享后是否单调性，不满足单调性需要调整分箱。

# 绘制bivar图，调整分箱
# 根据节点设置分箱
dev_slt2 = cmb.transform(dev_slt)
val2 = cmb.transform(df_val[dev_slt.columns])
off2 = cmb.transform(df_off[dev_slt.columns])

# 观察分箱后的图像-act_info
bin_plot(dev_slt2, x='act_info', target='bad_ind')
bin_plot(val2, x='act_info', target='bad_ind')
bin_plot(off2, x='act_info', target='bad_ind')

开发样本
在这里插入图片描述
测试样本

验证样本

我们能看到前3箱出现上下波动，与整体的单调递减趋势不符，所以进行分箱合并。

# 没有呈现单调性，需要进行合并
bins['act_info']

[0.1153846153846154,
0.141025641025641,
0.1666666666666666,
0.205128205128205

最低0.47元/天解锁文章

AIGC人工智残

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
2
评论
使用toad库进行机器学习评分卡全流程

定义模型函数的使用函数，在函数中分别进行正向调用和逆向调用，验证模型的效果上限。如逆向模型训练集KS值明显小于正向模型训练集KS值，说明当前时间外样本分布与开发样本差异较大，需要重新划分样本集。我们能看到前3箱出现上下波动，与整体的单调递减趋势不符，所以进行分箱合并。绘制Bivar图，观察该特征分享后是否单调性，不满足单调性需要调整分箱。由于卡方分箱后部分变量的IV降低，且整体相关程度增大，需要再次筛选特征。使用逐步回归进行特征筛选，这里为线性回归模型，并选择KS作为评价指标。生成验证集的ks报告。
复制链接

扫一扫