python分箱分类代码_python实现连续型变量自动分箱（一）

最新推荐文章于 2023-12-21 10:41:32 发布

Easonxxy

最新推荐文章于 2023-12-21 10:41:32 发布

阅读量1.5k

点赞数

文章标签： python分箱分类代码

本期开始，咱们开始聊聊建模型的代码。前期定义y值、衍生变量生成宽表的过程不是一个标准化的过程，这部分咱们先不涉及。咱们的建模代码前提条件是已经定义好y变量且拼成了建模宽表。

编写建模代码的目的，是为了实现自动化分箱、算法拟合的过程。第一步，我们需要实现变量分箱的自动化。前几期介绍分箱的时候咱们就说过，变量分箱分为两种，一种为连续型变量，一种为字符型变量。两种分箱的逻辑略有不同。

今天咱们先聊聊连续型变量分箱的逻辑。

最简单的一种逻辑就是先将连续变量按照百分位数分成100组，再利用一个指标将区分度相近的分组合并。

1、将变量按分位数等分

def _EqualWidthBinMap(x, Acc, adjust):

#x为一列数值型数据，Acc为想要的分位点，一般前期设置为0.01（百分位），adjust为调整参数，保证最大最小值能落在区间范围内

x=x.astype(float)#将数据统一转换成浮点数

x=x.dropna()#删除为nan的值

Mbins = int(1./Acc) #将数值分成的组数

ind = range(1, Mbins+1)#段数的列表

Upper = pd.Series(index=ind, name='upper')#上限序列

Lower = pd.Series(index=ind, name='lower')#下限序列

for i in ind:#循环分组

Upper[i] = np.percentile(x,i)#当前分位点的上限

Lower[i] = np.percentile(x,i-1)#当前分位点的下限

Upper[Mbins] =

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python分箱分类代码_python实现连续型变量自动分箱（一）

本期开始，咱们开始聊聊建模型的代码。前期定义y值、衍生变量生成宽表的过程不是一个标准化的过程，这部分咱们先不涉及。咱们的建模代码前提条件是已经定义好y变量且拼成了建模宽表。编写建模代码的目的，是为了实现自动化分箱、算法拟合的过程。第一步，我们需要实现变量分箱的自动化。前几期介绍分箱的时候咱们就说过，变量分箱分为两种，一种为连续型变量，一种为字符型变量。两种分箱的逻辑略有不同。今天咱们先聊聊连续型变...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。