数据清洗-pandas中one-hot编码函数pd.get_dummies()

最新推荐文章于 2024-05-13 10:48:20 发布

努力埋也总的宝儿姐

最新推荐文章于 2024-05-13 10:48:20 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： pandas 数据清洗 one-hot编码

本文链接：https://blog.csdn.net/weixin_43422455/article/details/90290233

版权

4 篇文章 0 订阅

订阅专栏

离散特征的编码分为两种情况：

使用pandas.get_dummies()函数可以很方便的对离散型特征进行one-hot编码

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False,
columns=None, sparse=False, drop_first=False)

详细解释见官方文档

重要参数解释

import pandas as pd
df=pd.DataFrame([['XL','Green','A'],['L','Red','B'],['M','Blue','C'],['L','Yellow','D']])
df.columns=['Size','Color','Type']
df

#将取值具有大小意义的Size列，使用map函数进行数值映射{M:1,L:2,XL:3}
df['Size']=df['Size'].map({'XL':3,'L':2,'M':1}).astype(int)
df

#将取值之间没有大小意义的Color列进行one-hot编码
df=pd.get_dummies(df,columns=['Color'])
df

	Size	Type	Color_Blue	Color_Green	Color_Red	Color_Yellow
0	3	A	0	1	0	0
1	2	B	0	0	1	0
2	1	C	1	0	0	0
3	2	D	0	0	0	1

#不指定列，对Color列与Type列同时进行one-hot编码
df=pd.get_dummies(df)
df

	Size	Color_Blue	Color_Green	Color_Red	Color_Yellow	Type_A	Type_B	Type_C	Type_D
0	3	0	1	0	0	1	0	0	0
1	2	0	0	1	0	0	1	0	0
2	1	1	0	0	0	0	0	1	0
3	2	0	0	0	1	0	0	0	1

关注