one-hot encoding 和 dummy encoding 的区别与联系

最新推荐文章于 2022-02-07 10:25:56 发布

weixin_30412013

最新推荐文章于 2022-02-07 10:25:56 发布

阅读量447

点赞数

原文链接：http://www.cnblogs.com/djesse1/p/10554131.html

版权

在模型的训练过程中，我们会对数据集的连续特征进行离散化操作，如使用简单的LR模型，然后对离散化后的特征进行one-hot encding 和 dummy encoding 编码。这样通常会使得我们模型具有较强的非线性能力。有些定性特征无法放入模型中处理，这时我们就需要进行转换，将定性特征转化为能够进行处理的定量特征，这时我们就会用到one-hot encding 和 dummy encoding 编码，下面我们对这两种编码做简单的介绍。

one-hot encoding

one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。举个例子，假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就会得到下图：

dummy encoding

哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士，是不是。（额，当然他现实生活也可能上幼儿园，但是我们统计的样本中他并不是，^-^）。所以，我们用哑变量编码可以将上述5类表示成：

one-hot编码和dummy编码：区别与联系

通过上面的例子，我们可以看出它们的“思想路线”是相同的，只是哑变量编码觉得one-hot编码太罗嗦了（一些很明显的事实还说的这么清楚），所以它就很那么很明显的东西省去了。这种简化不能说到底好不好，这要看使用的场景。下面我们以一个例子来说明：

假设我们现在获得了一个模型，这里自变量满足因为特征是one-hot获得的，所有只有一个状态位为1，其他都为了0，所以它们加和总是等于1），故我们可以用表示第三个特征，将其带入模型中，得到：

这时，我们就惊奇的发现和这两个参数是等价的！那么我们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢？有三种方法：

（1）使用正则化手段，将参数的选择上加一个限制，就是选择参数元素值小的那个作为最终参数，这样我们得到的参数就唯一了，模型也就稳定了。

（2）把偏置项去掉，这时我们发现也可以解决同一个模型参数等价的问题。

因为有了bias项，所以和我们去掉bias项的模型是完全不同的模型，不存在参数等价的问题。

3）再加上bias项的前提下，使用哑变量编码代替one-hot编码，这时去除了，也就不存在之前一种特征可以用其他特征表示的问题了。

总结：我们使用one-hot编码时，通常我们的模型不加bias项或者加上bias项然后使用正则化手段去约束参数；当我们使用哑变量编码时，通常我们的模型都会加bias项，因为不加bias项会导致固有属性的丢失。

选择建议：我感觉最好是选择正则化 + one-hot编码；哑变量编码也可以使用，不过最好选择前者。虽然哑变量可以去除one-hot编码的冗余信息，但是因为每个离散型特征各个取值的地位都是对等的，随意取舍未免来的太随意。

参考:https://www.cnblogs.com/lianyingteng/p/7792693.html

转载于:https://www.cnblogs.com/djesse1/p/10554131.html

weixin_30412013

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
one-hot encoding 和 dummy encoding 的区别与联系

在模型的训练过程中，我们会对数据集的连续特征进行离散化操作，如使用简单的LR模型，然后对离散化后的特征进行one-hot encding 和 dummy encoding 编码。这样通常会使得我们模型具有较强的非线性能力。有些定性特征无法放入模型中处理，这时我们就需要进行转换，将定性特征转化为能够进行处理的定量特征，这时我们就会用到one-hot encding 和 dummy encoding ...
复制链接

扫一扫