最近在看一本关于智能风控的书,虽然自己的工作并非金融行业,但是里面的分析思路还是非常值得学习,下面就分享一个在书里面学到的非常好用的分箱工具-toad
为了提升模型的稳定性,和保证每个特征的样本量,通常需要对特征进行分箱(类似于分组),一般把变量分成6-10箱,每箱负样本占比差距尽量大,并且每箱样本量不低于总样本量的5%。
step1
首先进行数据的预处理
#导入数据import pandas as pdimport numpy as npdf= pd.read_csv(open(r'F:\建模数据.csv'))#分成三部分l=df.shape[0]devp=int(l*0.6)valp=int(l*0.8)df["type"]=1df["type"][:devp]="dev" df["type"][devp:valp]="val"df["type"][valp:]="off"#设置排除列ex_lis=["tel","type","target"]ft_lis=list(df.columns)for i in ex_lis: ft_lis.remove(i)#提取三部分的数据dev=df[df["type"]=="dev"]val=df[df["type"]=="val"]off=df[df["type&#