One-Hot编码

最新推荐文章于 2022-09-04 08:59:42 发布

Lit_leaf

最新推荐文章于 2022-09-04 08:59:42 发布

阅读量463

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40456226/article/details/81981709

版权

一、什么是One-Hot编码？

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1.

二、One-Hot编码的工作示例

让我们用一个小例子来说明一下到底什么是One-Hot编码。假设我们有一个带有’red’和’green’值的标签序列。我们可以将’red’的整数值分配为0，’green’的整数值为1。只要我们总是将这些数字分配给这些标签，这称为整数编码。一致性是重要的，所以我们可以稍后反转编码，并从整数值获取标签。

接下来，我们可以创建一个二进制向量来表示每个整数值。对于2个可能的整数值，向量的长度为2。

编码为0的“红色”标签将用二进制向量[1,0]表示，其中第0个索引被标记为值1。然后，编码为1的“绿色”标签将用一个二进制向量[0，1]，其中第一个索引被标记为1。

如果我们有序列：

‘red’、’red’、’green’

使用整数编码来表示它

0、0、1

而One-Hot编码就为：

[1, 0] [1, 0] [0, 1]

三、为什么要使用One-Hot编码

1.一个很隐晦的问题

在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间，所以往往默认数据数据是连续的（可以计算距离？），并且是有序的。但是有时用数字表示的数据并不是有序的，而是随机分配的。

举个例子：
有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，d(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。

2.举例

One hot 编码进行数据的分类更准确，许多机器学习算法无法直接用于数据分类。数据的类别必须转换成数字，对于分类的输入和输出变量都是一样的。

我们可以直接使用整数编码，需要时重新调整。这可能适用于在类别之间存在自然关系的问题，例如温度“冷”（0）和”热“（1）的标签。

当没有关系时，可能会出现问题，一个例子可能是标签的“狗”和“猫”。

在这些情况下，我们想让网络更具表现力，为每个可能的标签值提供概率式数字。这有助于进行问题网络建模。当输出变量使用one-hot编码时，它可以提供比单个标签更准确的一组预测。

四、One-Hot编码的好处：

解决了分类器不好处理属性数据的问题，让特征之间的距离计算更加合理
在一定程度上也起到了扩充特征的作用，比如性别本身是一个特征，经过one hot编码以后，就变成了男或女两个特征。
将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
One-Hot编码

一、什么是One-Hot编码？One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1.二、One-Hot编码的工作示例让我们用一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。