需求:将数据集一列进行独热编码
(1)如果所有取值都出现在所在列,则:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(sparse = False)
result = enc.fit_transform(data[[41]]) #41指的是列标为41的那一列数据
(2)如果所有取值未完全出现在所在列,意思就是说:比如我们想编码到10种分类,但是数据只出现了6种分类,则:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(sparse = False)
enc.fit([[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]])
result = enc.transform(data[[41]]) #注意这个函数少了fit前缀