one-hot向量

最新推荐文章于 2024-05-15 17:46:49 发布

Dancerlion

最新推荐文章于 2024-05-15 17:46:49 发布

阅读量615

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lulu_Bella/article/details/105766571

版权

one-hot编码

这是最简单的一种词向量编码方式。
在训练词向量之前，有一个包含我们需要的所有词的词表。首先，我们对每个词进行编号，假设词表的长度为n，则对于每一个词的表征向量均为一个n维向量，且只在其对应位置上的值为1，其他位置都是0。
虽然简单但是缺点也很明显。

有序性问题：它无法反映文本的有序性。因为语言并不是一个完全无序的随机序列。比如说，一个字之后只有接特定的字还能组成一个有意义的词，特定的一系列词按特定的顺序组合在一起才能组成一个有意义的句子。
语义鸿沟：其无法通过词向量来衡量相关词之间的距离关系，即这样的表征方法无法反映词之间的相似程度，因为任意两个向量的距离是相同的。
维度灾难：高维情形下将导致数据样本稀疏，距离计算困难，这对下游模型的负担是很重的。
参考链接：词向量/词嵌入

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
one-hot向量

one-hot编码这是最简单的一种词向量编码方式。在训练词向量之前，有一个包含我们需要的所有词的词表。首先，我们对每个词进行编号，假设词表的长度为n，则对于每一个词的表征向量均为一个n维向量，且只在其对应位置上的值为1，其他位置都是0。虽然简单但是缺点也很明显。有序性问题：它无法反映文本的有序性。因为语言并不是一个完全无序的随机序列。比如说，一个字之后只有接特定的字还能组成一个有意义的词...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。