pandas数据分类Category与cut

cut

cut(
    x,
    bins,
    right=True,
    labels=None,
    retbins=False,
    precision=3,
    include_lowest=False,
    duplicates="raise",
)
参数说明
x待分类数据
bins分类方式、int、数组、IntervalIndex
right是否包含右区间,默认True
labels给分类标签
retbins是否返回分类区间,默认False
precision精度
include_lowest是否包含左区间,默认False
duplicatesbins区间有重叠处理方式,'raise’抛出异常, 'drop’删除重复

简单示例

import numpy as np
import pandas as pd
from pandas import DataFrame

SIZE = 10

np.random.seed(147258)

df = DataFrame()
# 生成0到30之间的数做为年龄
df['age'] = np.random.randint(1, 31, size=SIZE)
# 4个字符做为名称
df['name'] = [pd.util.testing.rands(4) for i in range(SIZE)]

# 分为3类
df['category'] = pd.cut(df['age'], 3)
print(df)

# 分为4类
bins = [0, 5, 13, 18, 30]
# 个每个分类指定标签
df['category'] = pd.cut(df['age'], bins, labels=['infant', 'child', 'teenager', 'adult'])
print(df)

综合实例

我们经常会遇到数据是数据,按区间

import numpy as np
import pandas as pd
from pandas import DataFrame

SIZE = 20

np.random.seed(147258)

df = DataFrame()
df['amount'] = np.random.randint(1000, 10001, size=SIZE)
# 4个字符做为名称
df['name'] = [pd.util.testing.rands(4) for i in range(SIZE)]


bins = [0, 3000, 5000, 8000, 10000]
# 使用左闭右开区间
df['category'] = pd.cut(df['amount'], bins, labels=['[0,3000)', '[3000,5000)', '[5000,8000)', '[8000,10000)'], right=False, include_lowest=True)
print(df)

# 按category分组 统计每个分组的人数
result = df.groupby('category')['name'].count()
print(result)

# 按cagegory分组,统计每个分组的人数,以及每个分类的总销售额
result = df.groupby('category').agg({"name": "count", "amount": "sum"})
print(result)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值