Label Encoding & One-Hot Encoding_labelencoding和onehot-CSDN博客

本文链接：https://blog.csdn.net/lukeyyanghang/article/details/86607082

为什么需要Encoding?

绝大多数模型不支持类别型变量的输入，

什么是One-Hot Encoding?

One-Hot编码即独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。这样做的好处主要有:

1.解决了分类器不好处理属性数据的问题;

2.在一定程度上也起到了扩充特征的作用(有利有弊)。

举个?:

有如下三个特征属性：

性别：[“male”，“female”]

地区：[“Europe”，“US”，“Asia”]

浏览器：[“Firefox”，“Chrome”，“Safari”，“Internet Explorer”]

对于某一个样本，如[“male”，“US”，“Internet Explorer”]，我们需要将这个分类值的特征数字化，最直接的方法，我们可以采用序列化的方式：[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中(针对于某些模型来说)。

对于上述的问题，性别的属性是二维的，所以编码是两位对应

male 和 female 分别是 [1,0] , [0,1]

地区为三位分别是 [1,0,0] , [0,1,0] , [0,0,1]

浏览器为 [1,0,0,0] ,[0,1,0,0] , [0,0,1,0] , [0,0,0,1]

那么样本对应就是 [ 1,0 , 0,1,0 , 0,0,0,1]

什么是Label Encoding?

label encoding就是序列化标签编码

根据类别型变量的顺序和个数标记0,1,2,.....,n，还是比较好理解的

适用场景？

在讲场景之前，得先说模型(这里只谈分类模型)。

有些模型的损失函数对于数值大小是敏感的，即变量间的数值大小本身是有比较意义的，如逻辑回归，SVM等，我们暂将其称为A类模型；有些模型本身对数值变化不敏感，数值存在的意义更多的是为了排序，即0.1，0.2，0.3与1，2，3是没有区别的，这部分模型绝大部分是树模型，暂将其称为B类模型。

A类模型

类别变量必须做one hot encoding，因为label encoding是没有数值含义的。

但是对于类别很多的变量，做one hot encoding会使得生成的变量过于稀疏，所以这里有一些经验上的处理方式。

优先考虑的是有没业务上类别合并的方法，如城市变量，可以依发展程度分为一线城市，二线城市等等；

另外一种方法是one hot出现次数最多的前n个类别，其他类别放在其他类的变量中；

也可以利用y值(训练值)中positive rate做合并，不过容易出现过拟合的现象。

B类模型

如果使用的是B类模型，并且是有序变量，则优先使用label encoding，且赋值要与顺序一致。

如果是无序变量，则两种方法在很多情况下差别不大，但是在实际使用中label encoding的效果一般要比one hot encoding要好。这是因为在树模型中，label encoding至少可以完成one hot encoding同样的效果，而多出来的那部分信息则是label encoding后的数值本身是有排序作用的，它可以起到类别变量合并的效果，这种效果在类别较多的变量中更明显。

举个?

在树模型中，有四个类别，dog,cat,mouse,horse，如果dog类的占比很少，但它的positive rate与cat是类似的，若在one hot encoding中，前三个类别都入模型了。如果我们做label encoding时，随机将dog,cat,mouse,horse分别赋值为[1,3,2,4]，那么可以预见这个变量会分裂两次，达到上面one hot encoding的效果。但是如果我们将dog,cat,mouse赋值为[1,2,3,4]，可能这个变量只会分裂1次，它将dog和cat分在一起，此时达到的效果可能与one hot encoding相当。(其实就是树分类的时候，对于数值型变量是用大于小于的方式，依照熵的大小进行分枝的，所以没差)

但是在实际使用中，由于one hot encoding增加了变量的维度，在树模型中意味着更深的分裂，如果刚好树的深度限制在一数值时，dog这个类别可能不能入模型，其实意味着丢失了dog这一信息，而上面第二种label encoding没有这种问题，也意味着拟合的效果会更好，但是因为利用到了y值的信息，也容易发生过拟合。