特征工程——分箱（binning）

爱吃荔枝的杨先森

已于 2024-03-31 18:07:51 修改

阅读量751

点赞数 9

分类专栏：信用评分文章标签：机器学习

于 2024-03-31 18:06:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44738186/article/details/137204923

版权

信用评分专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、数据分箱是什么？

分箱就是将连续的变量离散化。

连续的数据：连续变量是指可以在一定范围内取任何值的变量，这个范围可以是有限的，也可以是无限的，比如：年龄，时间，长度，金额等。
离散化：将连续的数据转换成有限数量的区间。比如在评分卡模型中，根据用户年龄进行离散化操作，分为(0,20],(20,40],(40,60],(60,80]等。

二、分箱的方法

1.粗细之分

细分箱：将连续的变量分割成较多的区间或类别
粗分箱：将连续的变量分割成较少的区间或类别

2.其他

等频分箱：每个箱子里大致相同数量的观察。例如，如果有100个数据点，你可能想分成5个箱，每个箱有20个数据点。
等距分箱：每个箱子的间隔大小相同。例如，将收入范围从0到100000分成10个等宽的箱，每个箱包含10000的收入范围。
基于聚类的分箱：使用聚类算法，如k-means，将变量的值分组，每组内的值彼此相似度高，组与组之间的相似度低。
基于决策树的分箱：决策树是一种机器学习算法，它可以根据目标变量自动选择最佳的分箱边界。
最优分箱：根据统计学的方法确定分箱的阈值，以最优化目标变量的预测能力。
自定义分箱：根据业务知识确定分箱阈值。

总结

一般在评分卡模型中，可以先使用细分箱，找到最佳的分箱策略，然后进行粗分箱，简化模型，来提高模型的稳定性。拿年龄来说，分箱后赋予不同的分数，反映不同的年龄段的信用风险。

爱吃荔枝的杨先森

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爱吃荔枝的杨先森 CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

153万+: 周排名

12万+: 总排名

6459: 访问

: 等级

186: 积分

34: 粉丝

64: 获赞

3: 评论

44: 收藏

私信

关注

热门文章

分类专栏

最新评论

为什么请求头中是Authorization，而代码中使用HTTP_AUTHORIZATION获取
CSDN-Ada助手: 恭喜您写了第6篇博客！关于请求头中为什么是Authorization，而代码中使用HTTP_AUTHORIZATION获取的问题，您的解释很清晰明了。希望您能继续保持创作热情，分享更多有价值的内容。下一步，或许可以探讨一下其他常见的HTTP请求头字段，或者深入研究一些安全性相关的主题，这样可以让读者更全面地了解网络编程的知识。期待您的下一篇博客！
Win10安装WSL+Ubuntu18.04.6 LTS+ conda+python3.7.16+PyCharm+遇到的问题
CSDN-Ada助手: 恭喜您开始了博客创作之旅！这篇关于Win10安装WSL+Ubuntu18.04.6 LTS+ conda+python3.7.16+PyCharm的文章内容非常丰富，能够帮助到很多读者解决类似的问题。接下来建议您可以分享一些关于如何优化PyCharm的技巧，或者介绍一些常用的Python库的使用方法，让读者能够更深入地了解Python开发。期待您更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Linux命令（自用，持续更新）
CSDN-Ada助手: 非常感谢您分享关于Linux命令的博客，希望您能够继续更新和分享更多有用的内容！除了运行shell脚本和下载miniconda外，您还可以探索Linux系统管理、网络配置、文件权限管理等方面的知识。另外，学习使用grep、sed、awk等文本处理工具，可以帮助您更高效地处理数据和文本文件。希望您能够持续学习和分享，不断丰富自己的技能！期待您的更多精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Git的基本使用（WSL+Pycharm+码云+SSH拉取）
CSDN-Ada助手: 恭喜您在Git的基本使用方面写了这篇详尽的博客！持续更新对于技术类文章来说非常重要，可以让读者获取最新的知识和技巧。我建议您在未来的创作中，可以探讨一些高级的Git操作，比如分支管理、合并冲突解决等内容，这样可以让读者更全面地了解Git的应用。希望您能继续保持创作热情，不断提升自己的技术水平！祝您写作顺利，越来越出色！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
特征工程——分箱（binning）
CSDN-Ada助手: 恭喜你写出了第四篇博客！特征工程中的分箱技术确实是一个重要的主题，你讲解得很清晰。接下来，我建议你可以尝试探讨一下特征选择的方法，或者深入研究一些高级的特征工程技术，这样可以让你的博客内容更加丰富和深入。期待看到你更多的精彩文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。