pd.cut()函数--Pandas

1. 函数功能

将连续性数值进行离散化处理:如对年龄、消费金额等进行分组

2. 函数语法

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

3. 函数参数

参数含义
x要离散分箱操作的数组,必须是一维的
bins取值为:(1)整数n:将数据x划分为组距相等的n组;(2)标量组成的序列:指定每组的分界值;(3)IntervalIndex:间隔索引
right布尔值,默认为True:包括每组的右边边界值:当“ right = True”(默认值)时,则“ bins”=[1、2、3、4]表示(1,2],(2,3],(3,4]
labels指定离散化后返回每组的标签,长度与组数一致。默认为None:以分界值组成的左开右闭区间展示;取值为False时,返回一个区分箱的整数组成的序列。
retbins布尔值,默认为False:不返回分箱情况,该参数在bins取值为整数时起作用
precision分箱数值的精度,取值为整数,默认为3
include_lowest布尔值,默认为False:不包括每组的左侧分界值,即:左开区间
duplicates可选参数:当bins的边界值存在重复,采取的措施:raise(报错:默认)或者drop(删除)
ordered布尔值,默认为True:对labels标签排序,属于定序型变量:优秀>良好;取值为False时:得到的标签labels属于定类型变量:如:汉族、维吾尔族

4. 返回值

返回值包括两个

返回值含义
out返回值取决于labels参数的取值:(1)labels参数取值为None(默认):输入为Series时返回一个Series,其他输入类型返回categorical;(2)labels取值为标量组成的序列:输入为Series时返回一个Series,其他输入类型返回categorical;(3)labels取值为False时:返回一个整数组成的数组
bins计算得到或者制定的每组分界值,当retbins=True时,才会返回该值

5. 示例

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

其实标签为上述数字边界组成时,不需要通过Labels特别指定,取值为None时,默认即是上述形式。见下例:
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值