离散变量的编码方式_离散型解释变量的设计向量设计方式-CSDN博客

本文链接：https://blog.csdn.net/leileiliang/article/details/103002458

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码或LabelEncoder，我们来介绍三种编码方式。

一、 one-hot

one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。在这里插入图片描述

二、哑变量编码(dummy encoding)

哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士，是不是。（额，当然他现实生活也可能上幼儿园，但是我们统计的样本中他并不是，-）。所以，我们用哑变量编码可以将上述5类表示成：
在这里插入图片描述

三、one-hot编码和dummy编码：区别与联系

通过上面的例子，我们可以看出它们的“思想路线”是相同的，只是哑变量编码觉得one-hot编码太罗嗦了（一些很明显的事实还说的这么清楚），所以它就很那么很明显的东西省去了。这种简化不能说到底好不好，这要看使用的场景。下面我们以一个例子来说明：
　假设我们现在获得了一个模型，这里自变量满足（因为特征是one-hot获得的，所有只有一个状态位为1，其他都为了0，所以它们加和总是等于1），故我们可以用表示第三个特征，将其带入模型中，得到：
在这里插入图片描述
这时，我们就惊奇的发现（ $a_0 ,a_1,a_2,a_3$ ）和（ $a_0+a_3,a_1-a_3,a_2-a_3$ ,0)这两个参数是等价的！那么我们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢？有三种方法：