转载自:https://blog.csdn.net/lc013/article/details/104454135
简介
分桶是离散化的常用方法,将连续型特征离线化为一系列0/1的离散特征。
当数值特征跨越不同的数量级的时候,模型可能只会对大的特征值敏感,这种情况就可以考虑分桶操作。
分桶操作可以看作是对数值变量的离散化,然后通过二值化进行 one hot 编码。
常用的分桶方法:
- 等距分桶。每个桶的宽度是固定的,即值域范围是固定的;这种适合样本分布比较均匀的情况,避免出现有的桶数量很少,有的桶数量很多的情况。
- 等频分桶:每个桶有一样多的样本,但可能出现数值相差太大的样本放在同个桶的情况
- 模型分桶:使用模型找到最佳分桶,比如聚类,或者树等方法。
分桶的优点
- 分桶后得到的稀疏向量,内积乘法运算速度更快,计算结果更方便存储
- 对异常数据有很强的鲁棒性
注意
- 要让桶内的属性取值变化对样本标签的影响基本在一个不大的范围,即不能出现单个桶内,样本标签输出变化很大的情况;
- 每个桶内都有足够的样本,如果样本太少,随机性太大,不具有统计意义上的说服力;
- 每个桶内的样本分布均匀。