pandas进行one-hot编码

最新推荐文章于 2025-09-13 08:46:17 发布

原创

最新推荐文章于 2025-09-13 08:46:17 发布 · 1.5w 阅读

26 ·

CC 4.0 BY-SA版权

这篇博客详细介绍了如何使用pandas对分类数据进行one-hot编码，通过读取美国成年人收入数据集，检查字符串类别，然后应用get_dummies函数进行编码，并将结果存储为NumPy数组用于后续的逻辑回归模型训练。对于数值类别的处理，博主提出先将其转换为字符串再进行编码。

1.读取数据

本文采用的是美国成年人收入的数据集

import pandas as pd
from IPython.display import display
data = pd.read_csv(
    adult_path, header=None, index_col=False,
    names=['age', 'workclass', 'fnlwgt', 'education',  'education-num',
           'marital-status', 'occupation', 'relationship', 'race', 'gender',
           'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
           'income'])

2.检查字符串的分类数据

使用pandas Series 的value_counts函数，显示类别和出现次数

print(data.gender.value_counts())
#输出
Male      21790
Female    10771
Name: gender, dtype: int64

3.对数据进行one-hot编码

利用get_dummies函数自动转换对象（通常默认类别的结果是字符串）

print("Original features:\n", list

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Taohongfei_huster

关注关注

7
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pandas将数据转化为one-hot形式

猫敷雪

07-31

449

Pclass原来的取值是1，2，3，转换后变成了Pclass_1,Pclass_2,Pclass_3三个one-hot形式的列。

pandas中利用get_dummies()进行独热编码（One-Hot encoding）

wl_ss的博客

11-11

2万+

在机器学习分类任务中，经常存在一个特征有多个分类变量值，例如在kaggle中的Titanic比赛数据中，Embarked的值有S,C,Q。我们这个时候要对离散型数据进行onehot编码处理，至于onehot编码的优点以及为什么要用onehot编码？可以参考这篇博文：数据预处理：独热编码（One-Hot Encoding）一、onehot的优点 onehot编码的优点可以总结

参与评论您还未登录，请先登录后发表或查看评论

pandas使用get_dummies进行one-hot编码的方法

12-24

离散特征的编码分为两种情况： 1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3} 使用pandas可以很方便的对离散型特征进行one-hot编码 import pandas as pd df = pd.DataFrame([ ['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class

深度学习篇--- one-hot 独热编码

最新发布

道阻且长，行则将至。

09-13

1086

One-hot独热编码是一种将分类数据转换为数字格式的方法，通过为每个分类分配一个专属二进制向量（仅对应位置为1，其余为0），避免数值大小误导模型。适用于无顺序的名义变量（如性别、颜色），不适用于有序变量或类别过多的情况（易导致数据稀疏）。Python中可用pandas.get_dummies()快速实现。核心逻辑是用位置代替大小，确保分类平等性。

pandas实现one-hot编码

hesongzefairy的博客

02-03

7816

机器学习中我们常常需要自己准备数据，对于分类task，one-hot编码是最常用的label方式。什么是one-hot：离散的每一种取值都看做一个类别，若一种特征中有N个不相同的取值，那么就可以将该特征当作N种不同的类别，one-hot编码保证了每一个类别都会有唯一的取值，仅在该类别上取值为，其他位置取值为0。举例来说，如果特征1下有cat、dog、horse，那么one-hot编码如下：...

Python学习之：使用 pandas 产生 one-hot 编码

qq_42902997的博客

02-26

2535

import pandas as pd data = [['red',3] ,['green',5] ,['yellow',4] ,['red',6]] columns = ['color','age'] df = pd.DataFrame(data,columns=columns) df color age 0 red 3

One-Hot编码

Rhett_Butler0922的博客

04-25

793

One-Hot编码是处理分类变量的基础技术，PyTorch通过F.one_hot和torch.eye提供了高效实现。在深度学习中，One-Hot编码常用于标签处理，但对于高维特征，嵌入层（如）是更好的选择。

手动实现One-Hot编码完整实现Python版

10-29

需要注意的是，手动实现One-Hot编码虽然有助于理解和掌握其工作原理，但在实际应用中，我们通常会使用如`pandas.get_dummies()`或`sklearn.preprocessing.OneHotEncoder`这样的库函数，因为它们更高效且能够自动处理...

机器学习 - one-hot编码技术

暴力扬

07-05

1991

One-hot编码是一种数据处理技术，主要用于将分类变量转换为适合机器学习算法处理的格式。在One-hot编码中，每个类别值都会被转换成一个二进制向量，其中只有一个元素是1，其余所有元素都是0。这种编码方式确保了类别之间的独立性和唯一性，使得机器学习模型能够正确地处理和学习不同类别的特征。原理是基于将每个类别映射到一个独立的二进制位上，这样可以避免类别之间存在任何潜在的相关性或相似性，从而使得模型能够更准确地学习和预测。例如，在Python中实现One-hot编码可以通过pandas库的。

pandas做onehot编码

疯狂的鸡窝

10-24

1193

使用pandas做onehot编码奖pandas读取的csv中某一个字符串的列作one-hot编码，并统计各个编码出现次数如数据如下： >>> file hdid time eventid is_black 0 00000ec16ad8603567608b7bce582e57 1.568...

pandas 中对特征进行硬编码和onehot编码的实现

09-18

今天小编就为大家分享一篇pandas 中对特征进行硬编码和onehot编码的实现，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

pandas实现one_hot编码

tyler的博客

12-05

447

import pandas as pd import numpy as np def one_hot(df, c): dummies = pd.get_dummies(df[c]) #关键点 # 每一列重命名 dummies.columns = [c + "_" + c1 for c1 in dummies.columns] df = df.drop(c,axis = 1) return df.join(dummies) def one_hot_encoding

一文读懂Pandas中独热编码

weixin_39915649的博客

11-24

1501

在本文中，我们将探讨如何利用Pandas对分类数据进行独热（One-Hot）编码。

Pandas实战教程 | 实现one-hot编码

“365天深度学习训练营”报名进行中～

04-04

1905

🔗 运行环境：python3 🚩 作者：K同学啊 🥇 精选专栏：《深度学习100例》 🔥 推荐专栏：《新手入门深度学习》 📚 极品专栏：《Matplotlib教程》 🧿 优秀专栏：《Python入门100题》 ⭐ 选自专栏：《Pandas实战教程》 one-hot编码前的数据： 📍 实现代码 data = pd.get_dummies(data) data 📍 one-hot编码后的数据： ...

pandas使用get_dummies进行one-hot编码