python分箱分类代码_python实现连续型变量自动分箱(一)

本期开始,咱们开始聊聊建模型的代码。前期定义y值、衍生变量生成宽表的过程不是一个标准化的过程,这部分咱们先不涉及。咱们的建模代码前提条件是已经定义好y变量且拼成了建模宽表。

编写建模代码的目的,是为了实现自动化分箱、算法拟合的过程。第一步,我们需要实现变量分箱的自动化。前几期介绍分箱的时候咱们就说过,变量分箱分为两种,一种为连续型变量,一种为字符型变量。两种分箱的逻辑略有不同。

今天咱们先聊聊连续型变量分箱的逻辑。

最简单的一种逻辑就是先将连续变量按照百分位数分成100组,再利用一个指标将区分度相近的分组合并。

1、将变量按分位数等分

def _EqualWidthBinMap(x, Acc, adjust):

#x为一列数值型数据,Acc为想要的分位点,一般前期设置为0.01(百分位),adjust为调整参数,保证最大最小值能落在区间范围内

x=x.astype(float)#将数据统一转换成浮点数

x=x.dropna()#删除为nan的值

Mbins = int(1./Acc) #将数值分成的组数

ind = range(1, Mbins+1)#段数的列表

Upper = pd.Series(index=ind, name='upper')#上限序列

Lower = pd.Series(index=ind, name='lower')#下限序列

for i in ind:#循环分组

Upper[i] = np.percentile(x,i)#当前分位点的上限

Lower[i] = np.percentile(x,i-1)#当前分位点的下限

Upper[Mbins] =

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值