【Python】使用Pandas对数值进行分箱操作的4种方法

最新推荐文章于 2024-08-29 09:39:00 发布

镰刀韭菜

最新推荐文章于 2024-08-29 09:39:00 发布

阅读量5.6k

点赞数 3

分类专栏： Python编程实战与案例文章标签： pandas python 数据分析 value_groups between

本文链接：https://blog.csdn.net/ARPOSPF/article/details/129664845

版权

Python编程实战与案例专栏收录该内容

39 篇文章

订阅专栏

使用Pandas对数值进行分箱操作的4种方法

方法1：between & loc
方法2：cut
方法3：qcut
方法4：value_counts
补充材料

分箱是一种常见的数据预处理技术，有时也被称为 分桶或 离散化，可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中将介绍如何使用 Python的Pandas库中的4种方法对数值进行分箱。

首先，创建示例数据框

import pandas as pd
import numpy as np

def create_df():
  df = pd.DataFrame({'score': np.random.randint(0,101,1000)})
  return df

df = create_df()
df.head()

上面数据表示1000名学生的0到100分的考试分数。而我们的任务是将数字分数分为值“A”、“B”和“C”的等级，其中“A”是最好的，“C”是最差的。

方法1：between & loc

Pandas.between方法返回一个包含True的布尔向量，用来对应的Series元素位于边界值left和right之间。其中有三个参数“

left：左边界
right：右边界
inclusive：要包括哪个边界。可接受的值为 {“both”、“neither”、“left”、“right”}。

我们根据以下间隔规则将学生的分数分为等级：

A: (80, 100]
B: (50, 80]
C: [0, 50]

其中方括号[和圆括号)分别表示边界值是包含的和不包含的。我们需要确定哪个分数在感兴趣的区间之间，并为其分配相应的等级值。注意看下面的不同的参数表示是否包含边界

df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C'
df.loc[df['score'].between(50, 80, 'right'), 'grade'] = 'B'
df.loc[df['score'].between(80, 100, 'right'), 'grade'] = 'A'
df.head()

between
以下是每个分数区间的人数统计：
value_counts
注意：此方法需要为每个bin编写处理的代码，因此它仅适用于bin很少的情况。

方法2：cut

使用cut也可以将值分类为离散的间隔。此函数对于从连续变量到分类变量很有用。cut的参数如下：

x：要分箱的数组。必须是一维的。
bins：标量序列：定义允许非均匀宽度的 bin 边缘。
labels：指定返回的 bin 的标签。必须与上面的 bins 参数长度相同。
include_lowest: (bool) 第一个区间是否应该是左包含的。

代码如下：

bins = [0, 50, 80, 100]
labels = ['C', 'B', 'A']
df['grade'] = pd.cut(x = df['score'], bins = bins, labels = labels, include_lowest = True)
df.head()

cut
这样就创建一个包含bin边界值的bins列表和一个包含相应bin标签的标签列表。
查看每个区段的人数：
value_counts

方法3：qcut

qcut可以根据排名或基于样本分位数将变量离散为大小相等的桶。qcut的参数如下：

x：要分箱的输入数组。必须是一维的。
q：分位数。10 表示十分位数，4 表示四分位数等。也可以是交替排列的分位数，例如[0, .25, .5, .75, 1.] 四分位数。
labels：指定bin的标签。必须与生成的bin长度相同。
retbins: (bool) 是否返回 (bins, labels)。

在前两个示例中，为每个级别定义了分数间隔，这里使得每个级别的学生数量不均匀。在下面的示例中，将尝试将学生分类为3个具有相等（大约）数量的分数等级。示例中有1000名学生，因此每个分箱应该有大约333名学生。

df['grade'],cut_bin = pd.qcut(df['score'], q=3, labels=['C', 'B', 'A'], retbins=True)
df.head()

pcut
如果retbins设置为 True，则会返回 bin 边界：
retbins
可以看到分数间隔如下：

C：[0, 36]
B：(36, 68]
A：(68, 100]

再次使用.value_counts()检查每个等级有多少学生。理想情况下，每个箱应该有大约 333 名学生。

方法4：value_counts

虽然 pandas的.value_counts通常用于计算系列中唯一值的数量，但它也可用于使用bins参数将值分组到半开箱中。

需要强调的是：

默认情况下，.value_counts按值的降序对返回的系列进行排序。将sort设置为False以按其索引的升序对系列进行排序。
返回值的第一列是series索引，是指每个 bin 的区间范围，其中方括号[和圆括号)分别表示边界值是包含的和不包含的。返回的第二列是series的值，表示每个bin中有多少条记录。
与.qcut 不同，每个bin中的记录数不一定相同（大约）。.value_counts不会将相同数量的记录分配到相同的类别中，而是根据最高和最低分数将分数范围分成3个相等的部分。分数的最小值为0，最大值为100，因此这3个部分中的每一个都大约在33.33范围内。这也解释了为什么bin的边界是 33.33 的倍数。

还可以通过传入边界列表来定义bin边界：

这里的输出结果与方法1和2的结果相同。