ELMo模型、word2vec、独热编码（one-hot编码）的优缺点进行对比

chunmiao3032

于 2023-11-07 16:18:36 发布

阅读量766

点赞数

分类专栏： LLM 文章标签： word2vec 人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunmiao3032/article/details/134270155

版权

LLM 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

下面是对ELMo模型、word2vec和独热编码（one-hot编码）的优缺点进行对比：

独热编码（One-hot Encoding）：优点：

简单，易于理解。
适用于词汇表较小的场景。

缺点：

高维度。向量长度等于词汇表的大小，可能会非常大（例如数万）。
独热编码无法表示词之间的相似性。即使两个词在语义上相似，它们的独热编码也是正交的，无法体现这种相似性。
数据稀疏。每个词的编码中只有一个1，其余全为0，浪费了存储空间和计算资源。

Word2Vec：优点：

降维。Word2Vec生成低维稠密向量，相比独热编码节省了存储和计算资源。
可以挖掘词之间的相似性。在Word2Vec训练后的向量空间中，语义相似的词在空间中的距离较近，有助于表示词义。
可以进行词类比等操作，例如"king - man + woman = queen"。

缺点：

无法处理一词多义现象（多义词）。Word2Vec为每个词分配一个固定的向量，无法根据上下文来调整词义。
对于新词（未出现在训练语料中的词）无法很好地生成词向量。

ELMo（Embeddings from Language Models）：优点：

动态词向量。ELMo根据上下文为词生成词向量，因此可以处理一词多义现象。
预训练+微调。ELMo使用预训练模型捕获上下文信息，并可以在特定任务上进行微调，提高模型性能。
结合了多层LSTM网络的信息，可以捕捉到词的各种语义信息。

缺点：

计算复杂度较高。相比Word2Vec，ELMo使用深度双向LSTM网络，计算成本较高。
相对于word2vec等静态词向量，ELMo预训练模型的存储空间较大。

总结：独热编码适用于简单场景，但缺乏表达词之间相似性的能力。Word2Vec通过稠密向量表示词义，能够体现词之间的相似性，但无法处理一词多义现象。ELMo通过为词生成动态词向量，能够根据上下文调整词义，但计算复杂度较高。在实际应用中，可以根据问题的复杂度和需求选择合适的词表示方法。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

目录

分类专栏

LLM 10篇
k8s 5篇
转载 1篇
网络基础 2篇
C# 2篇
java

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。