LabelEncoder可以将[中国,美国,日本]转化为[0,1,2],但这样会出现一个问题:中国和日本的平均会等于日本。 决策树、随机森林算法等可以直接处理这样的类别类型特征,并且这种方法使用的特征空间很少。
One-Hot Encoding优势很明显,更容易被机器所正确理解,但高维度是个严重的问题,对于类别值多的特征来说更为突出,模型会变得复杂,且可能会影响到准确率,对于这种情况,可以在使用one-hot后,使用PCA或是其他降维方法处理。
LabelEncoder可以将[中国,美国,日本]转化为[0,1,2],但这样会出现一个问题:中国和日本的平均会等于日本。 决策树、随机森林算法等可以直接处理这样的类别类型特征,并且这种方法使用的特征空间很少。
One-Hot Encoding优势很明显,更容易被机器所正确理解,但高维度是个严重的问题,对于类别值多的特征来说更为突出,模型会变得复杂,且可能会影响到准确率,对于这种情况,可以在使用one-hot后,使用PCA或是其他降维方法处理。