数据清洗—制作one-hot

这篇博客介绍了如何利用pandas进行数据清洗中的one-hot编码操作,特别强调了对于非标准格式的数据需要预处理才能进行编码转换。作者分享了自己的处理方法,包括对二值化属性的处理和字符编码转换。
摘要由CSDN通过智能技术生成

数据清洗—制作one-hot

使用pandas进行one-hot编码
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

pandas中get_dummies()函数可以将字段进行编码,转换为01形式,其中prefix可以为每个新展开的列名添加前缀。
但是,笔者发现它较易使用在数据为每一列为单独的字符
4641

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], 'C': [1, 2, 3]})

## one-hot
df_dumm = pd.get_dummies(df)

86

my_one_hot

但是对于数据为下面形式的可就不能直接转换了,需要先预处理一下&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值