独热编码(one-hot encoding)与哑编码

最新推荐文章于 2024-08-11 23:04:42 发布

醉糊涂仙

最新推荐文章于 2024-08-11 23:04:42 发布

阅读量5.7k

点赞数 2

分类专栏：特征工程

特征工程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

参考博文:https://blog.csdn.net/u010916338/article/details/81116817
转载:http://f.dataguru.cn/thread-908867-1-1.html
在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操作通常会使得我们模型具有较强的非线性能力。那么这两种编码方式是如何进行的呢？它们之间是否有联系？又有什么样的区别？是如何提升模型的非线性能力的呢？下面我们一一介绍：

one-hot encoding
　　关于one-hot编码的具体介绍，可以参考我之前的一篇博客，博客地址：特征提取方法: one-hot 和 IF-IDF。这里，不再详细介绍。one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。举个例子，假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就需要5位来表示.

dummy encoding
　　哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士,只需要4位就够了.