Python超实用小技巧:数据分箱(代码及原理详解)

 train['CategoricalFare'] = pd.qcut(train['Fare'], 4)
 # 数据分箱,分成4个箱子
  • 目的

    连续变量离散化:1~100分成4箱

  • 为什么要分箱?

  1. 离散变量便于特征的增加和减少,便于模型快速迭代

  2. 稀疏向量内积乘法更快,计算结果便于存储,容易扩展

  3. 离散化后的特征对异常数据有很强的鲁棒性,例如,连续异常值5000可能对模型影响很大,但如果分箱后,模型影响很小

  4. 为模型引入非线性,提升模型表达能力,加大拟合

  5. 模型更加稳定,不会因为各别数据增加而影响模型精度

  6. 简化模型,防止模型过拟合

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值