数据清洗—制作one-hot
使用pandas进行one-hot编码
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
pandas中get_dummies()
函数可以将字段进行编码,转换为01形式,其中prefix
可以为每个新展开的列名添加前缀。
但是,笔者发现它较易使用在数据为每一列为单独的字符:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], 'C': [1, 2, 3]})
## one-hot
df_dumm = pd.get_dummies(df)
my_one_hot
但是对于数据为下面形式的可就不能直接转换了,需要先预处理一下&#