pandas数据分类Category与cut

最新推荐文章于 2024-05-02 05:45:37 发布

trayvontang

最新推荐文章于 2024-05-02 05:45:37 发布

阅读量490

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/trayvontang/article/details/103787675

版权

python 专栏收录该内容

23 篇文章 4 订阅

订阅专栏

cut

cut(
    x,
    bins,
    right=True,
    labels=None,
    retbins=False,
    precision=3,
    include_lowest=False,
    duplicates="raise",
)

参数	说明
x	待分类数据
bins	分类方式、int、数组、IntervalIndex
right	是否包含右区间，默认True
labels	给分类标签
retbins	是否返回分类区间，默认False
precision	精度
include_lowest	是否包含左区间，默认False
duplicates	bins区间有重叠处理方式，'raise’抛出异常, 'drop’删除重复

简单示例

import numpy as np
import pandas as pd
from pandas import DataFrame

SIZE = 10

np.random.seed(147258)

df = DataFrame()
# 生成0到30之间的数做为年龄
df['age'] = np.random.randint(1, 31, size=SIZE)
# 4个字符做为名称
df['name'] = [pd.util.testing.rands(4) for i in range(SIZE)]

# 分为3类
df['category'] = pd.cut(df['age'], 3)
print(df)

# 分为4类
bins = [0, 5, 13, 18, 30]
# 个每个分类指定标签
df['category'] = pd.cut(df['age'], bins, labels=['infant', 'child', 'teenager', 'adult'])
print(df)

综合实例

我们经常会遇到数据是数据，按区间

import numpy as np
import pandas as pd
from pandas import DataFrame

SIZE = 20

np.random.seed(147258)

df = DataFrame()
df['amount'] = np.random.randint(1000, 10001, size=SIZE)
# 4个字符做为名称
df['name'] = [pd.util.testing.rands(4) for i in range(SIZE)]


bins = [0, 3000, 5000, 8000, 10000]
# 使用左闭右开区间
df['category'] = pd.cut(df['amount'], bins, labels=['[0,3000)', '[3000,5000)', '[5000,8000)', '[8000,10000)'], right=False, include_lowest=True)
print(df)

# 按category分组 统计每个分组的人数
result = df.groupby('category')['name'].count()
print(result)

# 按cagegory分组，统计每个分组的人数，以及每个分类的总销售额
result = df.groupby('category').agg({"name": "count", "amount": "sum"})
print(result)

trayvontang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas数据分类Category与cut

cutcut( x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates="raise",)参数说明x待分类数据bins分类方式、int、数组、IntervalInd...
复制链接

扫一扫

专栏目录