Pandas-getdummies

最新推荐文章于 2025-08-23 18:43:00 发布

原创最新推荐文章于 2025-08-23 18:43:00 发布 · 845 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

本文阐述了Pandas库中get_dummies方法，用于非数字分类数据的one-hot编码，包括示例和参数解析。

get_dummies() 是 Pandas 中一个用于进行 one-hot 编码（独热编码）的方法。在机器学习和数据处理中，经常会遇到分类数据，例如性别、国家、颜色等，这些数据并不能直接用于大多数模型的训练，因为它们是非数字的。而 one-hot 编码可以将这些分类数据转换为模型能够处理的数字形式。

get_dummies() 方法主要用于将指定的 DataFrame 或 Series 中的分类变量转换为 one-hot 编码的形式，生成一个新的 DataFrame。

基本语法如下：

python蟒
Copy code
pandas.get_dummies(data, prefix=None, prefix_sep=‘_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
参数解释：

data: 要进行编码的 DataFrame 或 Series。
prefix: 新列名的前缀，用于区分不同的分类变量，默认为 None。
prefix_sep: 前缀与原始列名之间的分隔符，默认为下划线 _。
dummy_na: 是否为缺失值创建 dummy 变量（即创建一个表示缺失值的列），默认为 False。
columns: 指定要进行编码的列，如果不指定，则对所有的 object 或 category 类型的列进行编码。
sparse: 是否返回稀疏矩阵，默认为 False。
drop_first: 是否删除第一个类别，以避免多重共线性，默认为 False。
dtype: 指定编码后的数据类型，默认为 None。
举个例子，假设有一个包含性别信息的 DataFrame：

python蟒
Copy code
import pandas as pd

data = pd.DataFrame({‘gender’: [‘Male’, ‘Female’, ‘Male’, ‘Female’, ‘Male’]})
现在我们可以使用 get_dummies() 方法对性别进行 one-hot 编码：

python蟒
Copy code
encoded_data = pd.get_dummies(data, columns=[‘gender’], prefix=‘gender’, prefix_sep=‘_’)
这将会生成一个新的 DataFrame encoded_data，如下所示：

Copy code
gender_Male gender_Female
0 1 0
1 0 1
2 1 0
3 0 1
4 1 0
其中，gender_Male 和 gender_Female 分别表示了性别为男性和女性的情况，取值为 1 表示该样本的性别为相应的类别，取值为 0 表示不是该类别。