离散变量的编码方式

最新推荐文章于 2023-08-31 16:50:41 发布

未响的铃铛

最新推荐文章于 2023-08-31 16:50:41 发布

阅读量898

点赞数

本文链接：https://blog.csdn.net/qq_45734454/article/details/102979594

版权

本文介绍了离散变量在机器学习中的编码方法，包括one-hot编码和哑变量编码，以及它们的区别与联系。one-hot将每个取值视为独立状态，而哑变量编码则省略了一个状态位。文章还提到了LabelEncoder，用于对离散特征编号，但可能引起误导。在使用编码时，需考虑模型是否加入bias项和正则化策略。

摘要由CSDN通过智能技术生成

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码或LabelEncoder，我们来介绍三种编码方式。

一、 one-hot

one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。
在这里插入图片描述

二、哑变量编码(dummy encoding)

哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士，是不是。（额，当然他现实生活也可能上幼儿园，但是我们统计的样本中他并不是，^-）。所以，我们用哑变量编码可以将上述5类表示成：
在这里插入图片描述

三、one-hot编码和dummy编码：区别与联系

通过上面的例子，我们可以看出它们的“思想路线”是相同的，只是哑变量编码觉得one-hot编码太罗嗦了（一些很明显的事实还说的这么清楚），所以它就很那么很明显的东西省去了。这种简化不能说到底好不好，这要看使用的场景。下面我们以一个例子来说明：
　假设我们现在获得了一个模型，这里自变量满足（因为特征是one-hot获得的，所有只有一个状态位为1，其他都为了0，所以它们加和总是等于1），故我们可以用表示第三个特征，将其带入模型中，得到：
在这里插入图片描述
这时，我们就惊奇的发现（ $a_0$