利用pd.cut()和pd.qcut()对数据进行分箱操作

本文介绍如何使用Pandas中的cut()和qcut()函数对数据进行分箱处理,包括自定义区间分箱和等频分箱的方法,并提供具体实例。

使用cut()和qcut()对数据进行分箱操作

1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。

假如我们有一组学生成绩,我们需要将这些成绩分为不及格(0-59)、及格(60-70)、良(71-85)、优(86-100)这几组。这时候可以用到cut()


import numpy as np
import pandas as pd

# 我们先给 scores传入30个从0到100随机的数
scores = np.random.uniform(0,100,size=30)

# 然后使用 np.round()函数控制数据精度
scores = np.round(scores,1)

# 指定分箱的区间
grades = [0,59,70,85,100]

cuts = pd.cut(scores,grades)
print('\nscores:')
print(scores)
print('\ncuts:')
print(cuts)
# 我们还可以计算出每个箱子中有多少个数据
print('\ncats.value_counts:')
print(pd.value_counts(cuts))

======output:======

scores:
[ 6.  50.8 80.2 22.1 60.1 75.1 30.8 50.8 81.6 17.4 13.4 24.3 67.3 84.4
 63.4 21.3 17.2  3.7 40.1 12.4 15.7 23.1 67.4 94.8 72.6 12.8 81.  82.
 70.2 54.1]

cuts:
[(0, 59], (0, 59], (70, 85], (0, 59], (59, 70], ..., (0, 59], (70, 85], (70, 85], (70, 85], (0, 59]]
Length: 30
Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 85] < (85, 100]]

cuts.value_counts:
(0, 59]      17
(70, 85]      8
(59, 70]      4
(85, 100]     1
dtype: int64

默认情况下,cat()的区间划分是左开右闭,可以传递right=False来改变哪一边是封闭的

代码示例:

cuts = pd.cut(scores,grades,right=False)

也可以通过向labels选项传递一个列表或数组来传入自定义的箱名

代码示例:

group_names = ['不及格','及格','良','优秀']
cuts = pd.cut(scores,grades,labels=group_names)

当我们不需要自定义划分区间时,而是需要根据数据中最大值和最小值计算出等长的箱子。

代码示例:

# 将成绩均匀的分在四个箱子中,precision=2的选项将精度控制在两位
cuts = pd.cut(scores,4,precision=2)

2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据

代码示例:

import numpy as np
import pandas as pd

# 正态分布
data = np.random.randn(100)

# 分四个箱子
cuts = pd.qcut(data,4)

print('\ncuts:')
print(cuts)
print('\ncuts.value_counts:')
print(pd.value_counts(cuts))


======output:======

cuts:
[(-0.745, -0.0723], (0.889, 2.834], (-0.745, -0.0723], (0.889, 2.834], (0.889, 2.834], ..., (-0.745, -0.0723], (-0.0723, 0.889], (-3.1599999999999997, -0.745], (-0.745, -0.0723], (-0.0723, 0.889]]
Length: 100
Categories (4, interval[float64]): [(-3.1599999999999997, -0.745] < (-0.745, -0.0723] < (-0.0723, 0.889] <
                                    (0.889, 2.834]]

cuts.value_counts:
(0.889, 2.834]                   25
(-0.0723, 0.889]                 25
(-0.745, -0.0723]                25
(-3.1599999999999997, -0.745]    25
dtype: int64
### 概念重述 您提到的 `pd.cut` `pd.qcut` 是 Pandas 中用于**离散化连续数据**的两个函数。它们可以将连续型变量划分到不同的“面元”或“区间”中,适用于分类统计、数据预处理等场景。 --- ### 详解 #### 1. `pd.cut(x, bins, ...)` - **作用**:将连续变量 `x` 按照指定的 `bins`(边界)进行**等宽划分**。 - **适用于**:你已经知道划分的边界,或希望按照固定宽度进行离散化。 - **参数说明**: - `x`:要离散化的数组或 Series。 - `bins`:可以是整数(表示划分成多少个等宽区间),也可以是一个列表或数组,指定每个区间的上下界。 - **示例**: ```python import pandas as pd ages = [18, 25, 35, 45, 55, 65] bins = [18, 30, 40, 50, 60, 70] pd.cut(ages, bins) ``` 输出: ``` [(18, 30], (18, 30], (30, 40], (40, 50], (50, 60], (60, 70]] ``` #### 2. `pd.qcut(x, q, ...)` - **作用**:将连续变量 `x` 按照**分位数**进行**等频划分**。 - **适用于**:希望每个区间中包含的样本数量大致相等。 - **参数说明**: - `x`:要离散化的数组或 Series。 - `q`:可以是整数(表示分成 `q` 个等频区间),也可以是一个表示分位点的列表(如 `[0, 0.25, 0.5, 0.75, 1]`)。 - **示例**: ```python data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] pd.qcut(data, q=4) ``` 输出: ``` [(-0.001, 3.25], (-0.001, 3.25], (-0.001, 3.25], (3.25, 5.5], (3.25, 5.5], (5.5, 7.75], (5.5, 7.75], (7.75, 10.0], (7.75, 10.0], (7.75, 10.0]] ``` --- ### 知识点 1. **pd.cut 等宽离散化** 按指定区间划分数据,适用于分布已知或需固定区间的情况。 2. **pd.qcut 等频离散化** 按分位数划分数据,确保每个区间样本数大致相等,适用于数据分布不均的情况。 3. **数据分箱离散化** 将连续特征转换为分类特征,有助于提升模型的解释性鲁棒性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值