风控ML[11] | 3种连续变量分箱方法的代码分享

最新推荐文章于 2024-02-04 18:22:56 发布

Pysamlam

最新推荐文章于 2024-02-04 18:22:56 发布

阅读量1.2k

点赞数 2

分类专栏：风控ML 文章标签：列表算法 python numpy java

本文链接：https://blog.csdn.net/pysamlam/article/details/122834004

版权

大家好呀！在上一篇文章《风控建模中的自动分箱的方法有哪些》中我们介绍了3种业界常用的自动最优分箱方法。
1）基于CART算法的连续变量最优分箱
2）基于卡方检验的连续变量最优分箱
3）基于最优KS的连续变量最优分箱
今天这篇文章就来分享一下这3种方法的Python实现。

00 Index

01 测试数据与评估方法准备
02 基于CART算法的最优分箱代码实现
03 基于卡方检验的最优分箱代码实现
04 基于最优KS的最优分箱代码实现
05 测试效果与小节

01 测试数据与评估方法准备

为了模拟实际在风险建模中我们常遇见的数据集，我这边简单造了一些数据，主要有3列：
其中，target就是我们的Y列，另外两个分别是X列，也就是我们的特征。
我们需要做的就是把数据导入即可，数据集可以在公众号（SamShare）后台回复 cut 获取。

# 导入相关库
import pandas as pd
import numpy as np
import random
import math
from scipy.stats import chi2
import scipy

# 测试数据构造，其中target为Y，1代表坏人，0代表好人。  
df = pd.read_csv('./autocut_testdata.csv')
print(len(df))
print(df.target.value_counts()/len(df))
print(df.head())

另外，我们需要一个评估分箱效果的方法，上篇我们讲到可以用IV值来衡量效果，所以我们需要也构造一个IV值计算的方法。

def iv_count(data, var, target):
    ''' 计算iv值
    Args:
        data: DataFrame，拟操作的数据集
        var: String，拟计算IV值的变量名称
        target: String，Y列名称
    Returns:
        IV值， float
    '''
    value_list = set(list(np.unique(data[var])))
    iv = 0
    data_bad = pd.Series(data[data[target]==1][var].values, index=data[data[target]==1].index)
    data_good = pd.Series(data[data[target]==0][var].values, index=data[data[target]==0].index)
    len_bad = len(data_bad)
    len_good = len(data_good)
    for value in value_list:
        # 判断是否某类是否为0，避免出现无穷小值和无穷大值
        if sum(data_bad == value) == 0:
            bad_rate = 1 / len_bad
        else:
            bad_rate = sum(data_bad == value) / len_bad
        if sum(data_good == value) == 0:
            good_rate = 1 / len_good
        else:
            good_rate = sum(data_good == value) / len_good
        iv += (good_rate - bad_rate) * math.log(good_rate / bad_rate,2)
        # print(value,iv)
    return iv

02 基于CART算法的最优分箱代码实现

基于CART算法的连续变量最优分箱，实现步骤如下：
1，给定连续变量 V，对V中的值进行排序；
2，依次计算相邻元素间中位数作为二值划分点的基尼指数；
3，选择最优（划分后基尼指数下降最大）的划分点作为本次迭代的划分点；
4，递归迭代步骤2-3，直到满足停止条件。（一般是以划分后的样本量作为停止条件，比如叶子节点的样本量>=总样本量的10%）

def get_var_median(data, var):
    """ 得到指定连续变量的所有元素的中位数列表
    Args:
        data: DataFrame，拟操作的数据集
        var: String，拟分箱的连续型变量名称
    Returns:
        关于连续变量的所有元素的中位列表，List
    """
    var_value_list = list(np.unique(data[var]))
    var_median_list = []
    for i in range(len(var_value_list)-1):
        var_median = (var_value_list[i] + var_value_list[i+1]) / 2
        var_median_list.append(var_median)
    return var_medi

最低0.47元/天解锁文章

Pysamlam

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
风控ML[11] | 3种连续变量分箱方法的代码分享

大家好呀！在上一篇文章《风控建模中的自动分箱的方法有哪些》中我们介绍了3种业界常用的自动最优分箱方法。1）基于CART算法的连续变量最优分箱2）基于卡方检验的连续变量最优分箱3）基于最优K...
复制链接

扫一扫