一、独热编码（One-Hot）

瑞雪兆我心

已于 2024-05-10 10:19:23 修改

阅读量934

点赞数 25

文章标签：机器学习深度学习人工智能

于 2024-03-03 11:30:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/contributed_l/article/details/136428491

版权

引言

One-Hot 独热编码，又称为一位有效编码，将互相独立的标签表示为互相独立的二进制数字，每个样本只对应于一个类别（即只在对应的特征处值为1，其余特征处值为0），保证了独立标签之间的距离相等，即互相独立的标签之间相似性相同。

1 表示方法

One-Hot 独热编码是表示词向量最早的的方法。首先创建一个词表，里面包括了所有可能用到的为文字，每个文字占据一个位置。那么词向量就是一个该词表维度大小的向量，文字所在位置取值1，其它位置取值0。

例如，对于一个大小为3的list：["我", "爱", "你"]进行one-hot编码，其对应的one-hot编码为：

我爱你
我 1 0 0
爱 0 1 0
你 0 0 1

那么“我”的 One-Hot 独热编码就可以表示为向量 [1, 0, 0] ，“爱”可以表示为向量 [0, 1, 0]，“你”可以表示为 [0, 0, 1]。

2 存在的问题

One-Hot 独热编码存在较大的问题是维度灾难和语义鸿沟：

2.1 维度灾难

维度灾难：是指如果词表很大，那么词向量的维度也会很大，这会使得数据样本稀疏，计算困难。

2.2 语义鸿沟

语义鸿沟：是指one-hot表示法产生的词向量都是彼此正交的（两个向量的内积为0），体现不出任何语义上的联系。

比如“爱”的向量 [0, 1, 0] 和“你”的向量 [0, 0, 1] 的内积（对应位置的元素相乘得到的数值再相加）为0，“我”和“爱”的向量的内积也是0，没有任何差异，并不能体现出它们之间的相似性大小。

瑞雪兆我心

关注

25
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
一、独热编码（One-Hot）

One-Hot编码，又称为一位有效编码，将互相独立的标签表示为互相独立的二进制数字，每个样本只对应于一个类别（即只在对应的特征处值为1，其余特征处值为0），保证了独立标签之间的距离相等，即互相独立的标签之间相似性相同。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瑞雪兆我心 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。