sklearn LabelBinarizer
sklearn LabelBinarizer可以单词进行one hot编码。
import numpy as np
from sklearn.preprocessing import LabelBinarizer
data = np.array(['湖南省','广东省','北京市','河北省','湖南省','广东省'])
encoder = LabelBinarizer()
result = encoder.fit_transform(data)
print(result)
[[0 0 0 1]
[0 1 0 0]
[1 0 0 0]
[0 0 1 0]
[0 0 0 1]
[0 1 0 0]]