用Python实现特征工程之特征分桶（Feature Binning）详解

写代码的M教授

于 2024-08-13 09:15:00 发布

阅读量848

点赞数 15

分类专栏：特征工程文章标签： python 机器学习算法

本文链接：https://blog.csdn.net/qq_41698317/article/details/141140541

版权

特征工程专栏收录该内容

9 篇文章 0 订阅

订阅专栏

特征分桶（Feature Binning），也称为分箱或离散化，是一种将连续数值特征转换为离散类别特征的技术。特征分桶通过将连续变量划分为若干个区间（或桶、箱），并将每个数据点映射到相应的区间，从而将连续变量转换为离散变量。这种技术在特征工程中广泛应用，尤其是在处理非线性关系、减少模型复杂度、增强模型鲁棒性时非常有效。

1. 为什么要进行特征分桶？

特征分桶可以带来以下几个好处：

处理非线性关系：通过分桶，可以将非线性的数值特征转换为离散特征，模型可以更容易地捕捉非线性关系。
减少噪声：将特征分桶后，可以减少特征中的噪声，因为每个区间内的数据被视为相同，从而降低了特征的方差。
增强模型的鲁棒性：离散化后的特征对于小幅度的数值波动更为鲁棒，不会因为一些细微的数值变化导致模型的预测结果剧烈波动。
提升模型可解释性：离散特征通常比连续特征更容易解释，特别是在规则化的模型（如决策树、逻辑回归）中。

2. 特征分桶的基本方法

特征分桶可以通过多种方法实现，常见的方法包括等宽分桶、等频分桶、基于聚类的分桶以及自定义分桶等。

2.1 等宽分桶（Equal Width Binning）

等宽分桶将数据按指定的区间宽度进行分割，每个区间（桶）内的数据范围相同。

示例：等宽分桶

import pandas as pd

# 创建一个示例数据集
data = {'age': [22, 25, 47, 35, 46, 55, 85]}
df = pd.DataFrame(data)

# 等宽分桶，分为3个桶
df['age_bin'] = pd.cut(df['age'], bins=3)

print(df)

输出：

   age         age_bin
0   22  (21.937, 43.333]
1   25  (21.937, 43.333]
2   47   (43.333, 64.667]
3   35  (21.937, 43.333]
4   46   (43.333, 64.667]
5   55   (43.333, 64.667]
6   85    (64.667, 86.0]

解释：

数据被分为三个等宽的区间：(21.937, 43.333]、(43.333, 64.667] 和 (64.667, 86.0]。每个区间的宽度是 (最大值 - 最小值)/3。

2.2 等频分桶（Equal Frequency Binning）

等频分桶将数据按指定的频数进行分割，使得每个桶内的数据量相同，但每个区间的宽度可能不同。

示例：等频分桶

# 等频分桶，分为3个桶
df['age_bin'] = pd.qcut(df['age'], q=3)

print(df)

输出：

   age         age_bin
0   22  (21.999, 35.0]
1   25  (21.999, 35.0]
2   47   (35.0, 55.0]
3   35  (21.999, 35.0]
4   46   (35.0, 55.0]
5   55   (35.0, 55.0]
6   85   (55.0, 85.0]

解释：

数据被分为三个等频区间：(21.999, 35.0]、(35.0, 55.0] 和 (55.0, 85.0]，每个区间内的数据点数量相等。

2.3 基于聚类的分桶（Clustering-based Binning）

这种方法基于聚类算法（如K-means），将相似的数据点分到同一个桶中。聚类分桶能够捕捉数据的内在结构，但也需要指定聚类的数量。

示例：基于K-means的分桶

from sklearn.cluster import KMeans
import numpy as np

# 创建一个示例数据集
data = np.array([22, 25, 47, 35, 46, 55, 85]).reshape(-1, 1)

# 使用K-means进行分桶，分为3个桶
kmeans = KMeans(n_clusters=3, random_state=0).fit(data)
df['age_bin'] = kmeans.labels_

print(df)

输出：

   age  age_bin
0   22        2
1   25        2
2   47        0
3   35        2
4   46        0
5   55        0
6   85        1

解释：

通过K-means聚类，数据被分为3个桶，分别用 0、1、2 表示。桶的划分基于数据点的相似性。

2.4 自定义分桶（Custom Binning）

自定义分桶允许用户根据特定的业务需求，手动定义分桶的边界。它灵活性较高，适合处理具有明确业务含义的特征。

示例：自定义分桶

# 自定义分桶
bins = [0, 25, 50, 100]
labels = ['Young', 'Middle-aged', 'Senior']

df['age_bin'] = pd.cut(df['age'], bins=bins, labels=labels)

print(df)

输出：

   age     age_bin
0   22      Young
1   25      Young
2   47  Middle-aged
3   35  Middle-aged
4   46  Middle-aged
5   55      Senior
6   85      Senior

解释：

数据被分为三个自定义区间：[0, 25)、[25, 50) 和 [50, 100]，每个区间被赋予特定的标签（Young、Middle-aged、Senior）。

3. 特征分桶的应用场景

特征分桶在各种机器学习和数据分析任务中都有应用，以下是一些常见的场景：

信用评分：在金融领域，特征分桶常用于对客户的信用评分进行分级，将连续的信用评分离散化为几个等级，以便于后续的决策和分析。
风险分析：在保险行业，特征分桶可以将客户的风险因子（如年龄、收入等）进行分级，从而评估其风险等级。
销售数据分析：在电子商务中，可以将客户的购买金额、购买次数等特征进行分桶，以便于识别高价值客户。

4. 特征分桶的优势与挑战

4.1 优势

简化模型复杂性：通过将连续变量离散化，特征分桶可以简化模型的复杂性，尤其是在规则化模型（如决策树）中。
提升模型鲁棒性：分桶后的特征对于小幅度的数值波动更为鲁棒，减少了过拟合的风险。
增强可解释性：离散特征通常更容易解释，尤其是在分类模型中，每个分桶可以对应特定的类别或标签，使模型的输出更具业务意义。

4.2 挑战

信息损失：将连续变量离散化后，可能会丢失一些原始数据的精细信息，从而降低模型的预测能力。
分桶选择难度：选择合适的分桶方法和分桶数量是一个挑战，如果分桶不当，可能会导致模型性能下降。
不适合所有模型：对于某些模型（如线性回归），特征分桶可能并不适用，因为离散化会丢失连续特征的顺序信息。

5. 高级特征分桶技术

在实际应用中，特征分桶不仅限于简单的等宽或等频分桶，还可以结合其他技术进行更高级的处理：

决策树分桶：利用决策树模型的分裂点来确定分桶的边界，确保分桶的划分对目标变量最具区分性。
基于信息增益的分桶：通过计算每个分桶对目标变量的信息增益，选择最优的分桶边界。
目标编码结合分桶：先对特征进行目标编码（根据目标变量的均值对特征进行编码），然后对编码后的特征进行分桶处理。

6. 实际案例分析

6.1 案例背景

假设我们在金融领域，需要对客户的收入进行分桶，以便于后续的信用评分模型构建。我们有一组客户收入数据，并希望通过分桶来减少噪声，并捕捉客户收入对信用评分的非线性影响。

6.2 数据准备与分桶

import pandas as pd

# 创建示例数据集
data = {'income': [20000, 35000, 50000, 75000, 120000, 180000, 250000]}
df = pd.DataFrame(data)

# 等频分桶，分为3个桶
df['income_bin'] = pd.qcut(df['income'], q=3, labels=['Low', 'Middle', 'High'])

print(df)

输出：

   income income_bin
0   20000        Low
1   35000        Low
2   50000     Middle
3   75000     Middle
4  120000       High
5  180000       High
6  250000       High

解释：

通过等频分桶，我们将客户收入分为 Low（低收入）、Middle（中等收入）和 High（高收入）三个等级，每个等级包含大致相同数量的客户。

6.3 模型训练与分析

这些分桶后的特征可以用于构建信用评分模型，并分析每个收入等级对信用评分的影响。

7. 总结

特征分桶是一种简单而有效的特征工程技术，能够将连续数值特征转换为离散类别特征，从而简化模型、减少噪声、提高模型的鲁棒性和可解释性。尽管特征分桶可能会引起信息损失，但通过合理选择分桶方法和数量，可以在保持模型性能的同时，增强模型的稳定性和可解释性。在实际应用中，特征分桶可以结合其他特征工程技术，如目标编码、信息增益等，进一步提升模型的表现。