连续值特征分桶区间设置

连续值特征分桶区间设置依靠实际意义依靠数学分析oddsWOEIV值等宽等频K-means卡方统计我们实际遇到的数据经常会是连续取值的数据,比如一些表示计数或者量级的属性。有些模型比如常用的梯度提升树系列(GBDT,XGB,LGB)可以不做任何处理的直接输入;也有些模型(lr,nn)把数值属性去除量纲后就可以作为输入;但是一般为了方便处理或者提取出更有用的信息我们会做分桶或者说分箱处理。设置几个阈值把总的取值区间划分为几个小区间,每个样本的取值就会落在其中一个区间,如果阈值设置的好的话相当于人工
摘要由CSDN通过智能技术生成


我们实际遇到的数据经常会是连续取值的数据,比如一些表示计数或者量级的属性。

  1. 有些模型比如常用的梯度提升树系列(GBDT,XGB,LGB)可以不做任何处理的直接输入;
  2. 也有些模型(lr,nn)把数值属性去除量纲归一化后就可以作为输入;
  3. 但是一般为了方便处理或者提取出更有用的信息我们会做分桶或者说分箱处理。

设置几个阈值把总的取值区间划分为几个小区间(按照属性取值从小到大或者从大到小的顺序进行,不可跳跃。),每个样本的取值就会落在其中一个区间,如果阈值设置的好的话相当于人工再这个属性增加了一点区分度,更利于分类器性能,当然设置的不好的话也有对应的负面影响。

依靠实际意义

分桶区间的设置可以参考字段的实际意义,比如说字段是年龄的话显然可以大致分为儿童,青年,老年之类;某个测量指标可以分为弱,标准,强之类。这样的话不仅相当于引入问题背景的先验知识,得到的模型的解释性也更强(依赖于某属性低,或者高)。
但是更多的时候我们无法这样做,首先数据背景里面对于这个属性的划分可能比较粗放,不是理论上最好的划分;其次我们拿到的数据可能经过脱敏或者一些预处理,不知道该属性代表的实际意义是什么或者量纲发生了我们不知道的变动,无法直接上手用先验知识划分。这个时候我们就科学的问题就科学的来处理,再纯数学的角度做一些划分。

评价指标

在利用数学分析分桶之前,先介绍一下用来衡量我们分桶好坏(数学意义,可能不是模型中最优)的数学指标。

Odds

odds其实就是几率,假设事件发生的概率为 P P P,那么 o d d s =

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值