python分箱

为便于工作中计算KS和IV等值,编写一套可以沿用的代码,方便随时使用。

#第一步,读取数据
import pandas as pd
import numpy as np
df=pd.read_excel(r'C:\Users\***\a.xlsx')
#第二步:查看所有字段的字段类型
df.dtypes

#新建一个DataFrame,记载各变量的数据类型,便于后续筛选
df_var=pd.DataFrame(df.columns,columns=['var'])
df_type=pd.DataFrame(df.dtypes,columns=['type'])
#合并
df_var_type=pd.merge(df_var,df_type,how='left',left_on='var',right_index=True)


#字符型变量
list_object=list(df_var_type[df_var_type['type']=='object']['var'])
#数值型变量
list_num=list(df_var_type[(df_var_type['type']=='int64')|(df_var_type['type']=='float64')]['var'])
#第三步:分箱函数:两个:cut和qcut,即等宽和等频
#cut分箱:等宽
def cut_func(df_fx,n):
    data=df_fx
    cut=pd.DataFrame()
    for i in data.columns:
        if i in list_num:
            var_num=len(list(data[i].unique()))
            print(i,var_num)
            if var_num>n:
                cut[i]=pd.cut(data[i], n)
            else:
                cut[i]=data[i]
        if i in list_object:
            cut[i]=data[i]
    return cut
#qcut分箱:等频
def qcut_func(df_fx,n):
    data=df_fx
    cut=pd.DataFrame()
    for i in data.columns:
        if i in list_num:
            var_num=len(list(data[i].unique()))
            print(i,var_num)
            if var_num>n:
                cut[i]=pd.qcut(data[i], n,duplicates='drop')
            else:
                cut[i]=data[i]
        if i in list_object:
            cut[i]=data[i]
    return cut

    
#第四步:对数据进行分箱,可以根据需求进行筛选使用哪种分箱方法
df_cut=qcut_func(df,10)  #等频
df_cut=cut_func(df,10)  #等宽

#添加或定义Y列
df_cut['Y']=df['15A']
#第五步:分组求值
def ks_iv(df):
    data=df_cut.copy()
    data3=pd.DataFrame()
    #data=data.fillna('null')
    for i in data.columns:
        total=data.groupby(i)[i].count()
        total=pd.DataFrame({'total':total})
        good=data[data['Y']==0].groupby(i)[i].count()
        good=pd.DataFrame({'good':good})
        data1=pd.merge(total,good,how='left',left_index=True,right_index=True)
        data1=data1.fillna(0)
        data1['var']=i
        data1.reset_index(inplace=True)
        data1['cut']=data1[i]
        data1['bad']=data1['total']-data1['good']
        data1.reset_index(inplace=True)
        data1['group_rate']=data1['total']/len(data)
        data1['bad_rate']=data1['bad']/data1['total']
        data1['woe']=np.log((data1['bad']/data1['bad'].sum())/(data1['good']/data1['good'].sum()))
        data1['iv']=data1['woe']*(data1['bad']/data1['bad'].sum()-data1['good']/data1['good'].sum())
        data1.replace([-np.Inf,np.Inf],0,inplace=True)
        data1['total_good']=data1['good'].cumsum()
        data1['total_bad']=data1['bad'].cumsum()
        data1['total_good%']=data1['total_good']/data1['good'].sum()
        data1['total_bad%']=data1['total_bad']/data1['bad'].sum()
        data1['ks']=abs(data1['total_bad%']-data1['total_good%'])
        data_z=pd.DataFrame([[i,'总计',data1['total'].sum(),data1['bad'].sum(),data1['good'].sum(),data1['group_rate'].sum()
                                 ,data1['bad'].sum()/data1['total'].sum(),0,data1['iv'].sum()
                                 ,max(data1['total_good%']),max(data1['total_bad%']),max(data1['ks'])]]
                               ,columns=['var','cut','total','bad','good','group_rate','bad_rate','woe','iv','total_good%','total_bad%','ks'])
        
        
        
        data2=pd.concat([data1,data_z])
        data3=pd.concat([data2,data3])
        
        #data2.reset_index(inplace=True)
        #data2=pd.DataFrame(data2,columns=['var','total','good','bad','group_rate','bad_rate','woe','iv','total_good%','total_bad%','ks'])
        #data2=pd.DataFrame(data2,columns=['var','cut','total','good','bad','iv','total_good%','total_bad%','ks'])
  
        data3=pd.DataFrame(data3,columns=['var','cut','total','good','bad','group_rate','bad_rate','woe','iv','total_good%','total_bad%','ks'])
        #data2.set_index(["var"], inplace=True)
        #data_new=pd.concat([data2,data_z])
       # data_new=pd.DataFrame(data_new,columns=['var','cut','total','good','bad','group_rate','bad_rate','woe','iv','total_good%','total_bad%','ks'])
        
        
    return data3
        
#最后一步,计算
ks_iv(df_cut)

 

Python中的分箱函数主要用于将连续变量分组成离散的箱子或区间。这样做可以简化数据分析和建模过程,并且能够更好地理解和解释数据。 在Python中,有几个常用的分箱函数可以使用,其中一些常见的包括: 1. pandas.cut():这是pandas库中的一个函数,用于将连续变量划分为离散的区间。它可以根据指定的区间边界将数据进行分组,并为每个分组分配一个标签。 例如,以下代码将将一个Series对象的值分成4个等宽的区间: ```python import pandas as pd data = pd.Series([1, 2, 3, 4, 5, 6, 7, 8]) bins = pd.cut(data, bins=4) print(bins) ``` 2. numpy.histogram():这是numpy库中的一个函数,用于根据指定的区间边界计算直方图。它返回每个区间的频次以及区间的边界。 以下是一个示例,展示了如何使用numpy.histogram()函数计算一个数组的直方图: ```python import numpy as np data = np.array([1, 2, 3, 4, 5, 6, 7, 8]) hist, bins = np.histogram(data, bins=4) print(hist) print(bins) ``` 3. sklearn.preprocessing.KBinsDiscretizer:这是scikit-learn库中的一个类,用于将连续变量分箱。它基于指定的分箱策略和区间数量将数据进行离散化处理。 以下是一个示例,展示了如何使用KBinsDiscretizer类对一个特征进行分箱: ```python from sklearn.preprocessing import KBinsDiscretizer data = [, , , , , , , ] est = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='uniform') bins = est.fit_transform(data) print(bins) ``` 这些是常见的Python分箱函数,可以根据具体需求选择适合的函数来进行分箱操作。如果您有进一步的问题,请告诉我。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值