数据预处理——One-hot编码

最新推荐文章于 2024-07-26 20:35:37 发布

天涯__

最新推荐文章于 2024-07-26 20:35:37 发布

阅读量8.2k

点赞数 3

分类专栏：数据挖掘相关

本文链接：https://blog.csdn.net/wy250229163/article/details/52983760

版权

数据挖掘相关专栏收录该内容

2 篇文章 1 订阅

订阅专栏

网上关于One-hot编码的例子都来自于同一个例子，而且结果来的太抖了。查了半天，终于给搞清楚这个独热编码是怎么回事了，其实挺简单的，这里再做个总结。首先，引出例子：

已知三个feature，三个feature分别取值如下： feature1=[“male”, “female”] feature2=[“from Europe”, “from US”, “from Asia”] feature3=[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]

如果做普通数据处理，那么我们就按0,1,2,3进行编号就行了。例如feature1=[0，1],feature2=[0，1，2],feature3=[0，1，2，3]。那么，如果某个样本为[“male”,“from Asia”, “uses Chrome”]，它就可以表示为[0，2，1]。以上为普通编码方式。独热编码(One-hot)换了一种方式编码，先看看百科定义的：

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如对六个状态进行编码：自然顺序码为 000,001,010,011,100,101 独热编码则是 000001,000010,000100,001000,010000,100000

通过以上可以看到，独热编码每一个码的总的位数取决于状态的种类数，每一个码里的“1”的位置，就代表了哪个状态生效。还是回到我们最开始的例子，那么我们将它换成独热编码后，应该是： feature1=[01,10] feature2=[001,010,100] feature3=[0001,0010,0100,1000]

注意，独热编码还有个特性是，当某个特征里的某一状态生效后，此特征的其他状态因为是互斥的关系，必须全部为0，切必须全部添加到特征里，不能省略不写。所以，对于前边样本[“male”,“from Asia”, “uses Chrome”]，经过独热编码后，它应该为： [01,00, 000,000,100, 0000,0010,0000,0000] 注：上边用空格，以便看的更清晰。

以上的独热编码可以写成简写形式： [1,0, 0,0,1, 0,1,0,0]

最后，摘抄下独热编码的好处：

由于分类器往往默认数据数据是连续的，并且是有序的，但是在很多机器学习任务中，存在很多离散（分类）特征，因而将特征值转化成数字时，往往也是不连续的， One-Hot 编码解决了这个问题。并且，经过独热编码后，特征变成了稀疏的了。这有两个好处，一是解决了分类器不好处理属性数据的问题，二是在一定程度上也起到了扩充特征的作用。

查看原文：http://www.wyblog.cn/2016/10/31/%e6%95%b0%e6%8d%ae%e9%a2%84%e5%a4%84%e7%90%86-one-hot%e7%bc%96%e7%a0%81/