-
x
:要进行分箱操作的数据。可以是一维的Series对象或NumPy数组。
-
bins
:指定分箱的方式。可以传递整数、序列或标量。常见的取值包括:
- 整数:表示要将数据划分为等宽的指定数量的箱子。
- 序列:表示要使用自定义的箱子边界,序列中的值指定每个箱子的边界。
- 标量:表示要使用指定的算法来计算箱子的数量和边界。
-
labels
:指定分箱后每个箱子的标签。可以是一个列表或数组,用于标识每个分箱区间的名称或类别。
-
right
:指定分箱区间的闭合方式。默认为True,表示右闭合(包含右边界),False表示左闭合(不包含右边界)。
-
include_lowest
:指定是否将最小值包含在第一个箱子中。默认为False,表示不包含最小值。
-
precision
:指定分箱边界的精度。默认为0,表示保留整数精度。
import pandas as pd
data = [1, 3, 5, 2, 4, 6, 8, 7, 9, 10]
bins = [0, 3, 6, 9, 10]
# 执行分箱操作
result = pd.cut(data, bins, labels=['Low', 'Medium', 'High', 'Very High'])
print(result)