one-hot编码

最新推荐文章于 2024-10-03 21:12:25 发布

Chloezhao

最新推荐文章于 2024-10-03 21:12:25 发布

阅读量7.8k

点赞数 1

本文链接：https://blog.csdn.net/Chloezhao/article/details/53484471

版权

One-Hot编码用于将分类特征转化为二进制表示，解决连续性假设问题。例如，性别、地区、浏览器等离散特征通过编码变为多个二进制特征。编码过程包括确定类别属性索引和计算每类特征的类别数量。示例展示了如何使用sklearn进行编码，以及将编码结果写入文本文件。

摘要由CSDN通过智能技术生成

为了防止将编号0到17的特征认为是连续型的特征，即认为1和2相似，4和10不同，但其实这是没有意义的，对于两个特征，要么它是一个特征，要么不同，没有中间状态。

为了消除这种和实际情况不一致的现象，使用OneHotEncode编码把这些整数转化为二进制。每个特征用一个二进制数字来表示。例如，特征A分配的数值为7，那么one-hot编码为它分配的二进制数字的第七位就是1，其余位为0.

在实际的应用场景中，有非常多的特征不是连续的数值变量，而是某一些离散的类别。比如在广告系统中，用户的性别，用户的地址，用户的兴趣爱好等等一系列特征，都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里，比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数，比如男性是0号特征，女性为1号特征。这种方式最大的优点就是简单粗暴，实现简单。那最大的问题就是在这种处理方式中，各种类别的特征都被看成是有序的，这显然是非常不符合实际场景的。

例如，考虑一下的三个特征：