等宽分箱_数据分箱之pd.qcut()

最新推荐文章于 2024-05-19 10:37:35 发布

数据-黄大大

最新推荐文章于 2024-05-19 10:37:35 发布

阅读量1.6k

点赞数

文章标签：等宽分箱

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28746327/article/details/112732099

版权

对于数据分箱，常用到的一个函数叫做pd.cut(),这个函数可以通过指定分箱个数或者每个箱体的分界值对数据进行分箱处理。其实，除了pd.cut(),还有一个函数即pd.qcut()也可以对数据进行分箱，那么和pd.cut()相比，pd.qcut()有什么不同呢？试想一下如果我们有一个很大的数据集，需要对其中一项进行分箱，分箱的依据不是单纯的等宽箱体或者没有确定的分解值，而是按照分位数进行分箱，比如...

摘要由CSDN通过智能技术生成

对于数据分箱，常用到的一个函数叫做pd.cut(),这个函数可以通过指定分箱个数或者每个箱体的分界值对数据进行分箱处理。其实，除了pd.cut(),还有一个函数即pd.qcut()也可以对数据进行分箱，那么和pd.cut()相比，pd.qcut()有什么不同呢？

试想一下如果我们有一个很大的数据集，需要对其中一项进行分箱，分箱的依据不是单纯的等宽箱体或者没有确定的分解值，而是按照分位数进行分箱，比如前四分之一的是一个箱体这种要求，用pd.cut()不是不能实现，只是比较麻烦，还要先计算分位数作为分解值。这个时候，pd.qcut()就方便很多了。

pd.qcut()参数介绍

先看一下官方文档给出的函数作用：

基于分位数的离散化功能。将变量离散化为基于等级或样本分位数的相等大小的存储桶。

再来看一下这个函数都包含有哪些参数，主要参数的含义与作用都是什么？

和pd.cut()相比，pd.qcut()的参数少了两个，少了right和include_lowest两个参数，剩下的参数几乎和pd.cut()一模一样了。

pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

x ：一维数组或者Serise

q ：表示分位数的整数或者数组，

如果是分位数的整数，例如10用于十分位，4用于四分位
如果是分位数数组，例如[0,0.25,0.5,0.75,1]用于四分位数

labels ：数组或者布尔值࿰

最低0.47元/天解锁文章

数据-黄大大

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
等宽分箱_数据分箱之pd.qcut()

对于数据分箱，常用到的一个函数叫做pd.cut(),这个函数可以通过指定分箱个数或者每个箱体的分界值对数据进行分箱处理。其实，除了pd.cut(),还有一个函数即pd.qcut()也可以对数据进行分箱，那么和pd.cut()相比，pd.qcut()有什么不同呢？试想一下如果我们有一个很大的数据集，需要对其中一项进行分箱，分箱的依据不是单纯的等宽箱体或者没有确定的分解值，而是按照分位数进行分箱，比如...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。