特征工程——分箱(binning)

一、数据分箱是什么?

分箱就是将连续的变量离散化。

  • 连续的数据:连续变量是指可以在一定范围内取任何值的变量,这个范围可以是有限的,也可以是无限的,比如:年龄,时间,长度,金额等。
  • 离散化:将连续的数据转换成有限数量的区间。比如在评分卡模型中,根据用户年龄进行离散化操作,分为(0,20],(20,40],(40,60],(60,80]等。

二、分箱的方法

1.粗细之分

  • 细分箱:将连续的变量分割成较多的区间或类别
  • 粗分箱:将连续的变量分割成较少的区间或类别

2.其他

  • 等频分箱:每个箱子里大致相同数量的观察。例如,如果有100个数据点,你可能想分成5个箱,每个箱有20个数据点。
  • 等距分箱:每个箱子的间隔大小相同。例如,将收入范围从0到100000分成10个等宽的箱,每个箱包含10000的收入范围。
  • 基于聚类的分箱:使用聚类算法,如k-means,将变量的值分组,每组内的值彼此相似度高,组与组之间的相似度低。
  • 基于决策树的分箱:决策树是一种机器学习算法,它可以根据目标变量自动选择最佳的分箱边界。
  • 最优分箱:根据统计学的方法确定分箱的阈值,以最优化目标变量的预测能力。
  • 自定义分箱:根据业务知识确定分箱阈值。

总结

        一般在评分卡模型中,可以先使用细分箱,找到最佳的分箱策略,然后进行粗分箱,简化模型,来提高模型的稳定性。拿年龄来说,分箱后赋予不同的分数,反映不同的年龄段的信用风险。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值