ML binning

一、分箱

:数据分箱(也称为离散分箱或者分段)是一种数据预处理的方法,用于减少次要观察误差的影响,是一种将多个连续值分为较少数量的分箱的方法。

1.1离散化:

,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。
通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
原数据:1,999,100000,15;处理后:1,3,4,2;
原数据:{100,200},{20,50000},{1,400};
处理后:{3,4},{2,6},{1,5};

1.2一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。
具体来说:

  • 离散特征的增加和减少都很容易,易于模型的快速迭代
  • 稀疏向量内乘积运算速度快,
  • 离散化后特征对异常值数据有很强的鲁棒性Robust:比如一个特征年龄>30是1,否则是0.如果特征没有离散化,一个异常值数据‘年龄300岁’会给模型造成很大的干扰
  • 逻辑回归属于广义的线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合
  • 离散化后可以进行特征交叉,由M+N个变量,进一步引入非线性,提升表达能力;

二、分箱方法:

2.1有监督分箱

  • 卡方分箱:自底向上的()
  • 最小熵分箱

2.2无监督分箱

  • 等距分箱:从最小值到最大值之间,均分为N等份,这样,如果A,B为最小值最大值,则每个区间的长度为W=(B-A)/N,这里只考虑边界,每个等分里面的实力数量可能不等
  • 等频分箱:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。

https://www.jianshu.com/p/0805f185ecdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值