词向量与词向量拼接_nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

最新推荐文章于 2024-01-29 23:08:51 发布

jadecass

最新推荐文章于 2024-01-29 23:08:51 发布

阅读量1.3k

点赞数

文章标签：词向量与词向量拼接

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34467247/article/details/112016994

版权

本文深入对比了多种词向量模型，包括word2vec、glove、fastText、elmo、GPT和bert。讨论了它们的优缺点、训练过程和应用场景，特别强调了双向Transformer Encoder在bert中的重要性，以及为何bert不直接采用decoder。此外，还介绍了词向量的各种表示方法和传统词向量的问题及其解决方案。

摘要由CSDN通过智能技术生成

本文以QA形式对自然语言处理中的词向量进行总结：包含word2vec/glove/fastText/elmo/bert。

2020年更新：NLP预训练模型的全面总结JayLou娄杰：史上最全！PTMs：NLP预训练模型的全面总结zhuanlan.zhihu.com

目录一、文本表示和各词向量间的对比

1、文本表示哪些方法？

2、怎么从语言模型理解词向量？怎么理解分布式假设？

3、传统的词向量有什么问题？怎么解决？各种词向量的特点是什么？

4、word2vec和NNLM对比有什么区别？(word2vec vs NNLM)

5、word2vec和fastText对比有什么区别？(word2vec vs fastText)

6、glove和word2vec、 LSA对比有什么区别？(word2vec vs glove vs LSA)

7、 elmo、GPT、bert三者之间有什么区别？(elmo vs GPT vs bert)

二、深入解剖word2vec

1、word2vec的两种模型分别是什么？

2、word2vec的两种优化方法是什么？它们的目标函数怎样确定的？训练过程又是怎样的？

三、深入解剖Glove详解

1、GloVe构建过程是怎样的？

2、GloVe的训练过程是怎样的？

3、Glove损失函数是如何确定的？

四、深入解剖bert(与elmo和GPT比较)

1、为什么bert采取的是双向Transformer Encoder，而不叫decoder？

2、elmo、GPT和bert在单双向语言模型处理上的不同之处？

3、bert构建双向语言模型不是很简单吗？不也可以直接像elmo拼接Transformer decoder吗？

4、为什么要采取Marked LM，而不直接应用Transformer Encoder？

5、bert为什么并不总是用实际的[MASK]token替换被“masked”的词汇？

一、文本表示和各词向量间的对比

1、文本表示哪些方法？

下面对文本表示进行一个归纳，也就是对于一篇文本可以如何用数学语言表示呢？基于one-hot、tf-idf、textrank等的bag-of-words；

主题模型：LSA(SVD)、pLSA、LDA；

基于词向量的固定表征：word2vec、fastText、glove

基于词向量的动态表征：elmo、GPT、bert

2、怎么从语言模型理解词向量？怎么理解分布式假设？

上面给出的4个类型也是nlp领域最为常用的文本表示了，文本是由每个单词构成的，而谈起词向量，one-hot是可认为是最为简单的词向量，但存在维度灾难和语义鸿沟等问题；通过构建共现矩阵并利用SVD求解构建词向量，则计算复杂度高；而早期词向量的研究通常来源于语言模型，比如NNLM和RNNLM，其主要目的是语言模型，而词向量只是一个副产物。NNLM

所谓分布式假设，用一句话可以表达：相同上下文语境的词有似含义。而由此引申出了word2vec、fastText，在此类词向量中，虽然其本质仍然是语言模型，但是它的目标并不是语言模型本身，而是词向量，其所作的一系列优化，都是为了更快更好的得到词向量。glove则是基于全局语料库、并结合上下文语境构建词向量，结合了LSA和word2vec的优点。

3、传统的词向量有什么问题？怎么解决？各种词向量的特点是什么？

上述方法得到的词向量是固定表征的，无法解决一词多义等问题，如“川普”。为此引入基于语言模型的动态表征方法：elmo、GPT、bert。

各种词向量的特点：

(1)One-hot 表示：维度灾难、语义鸿沟；

(2)分布式表示 (distributed representation) ：矩阵分解(LSA)：利用全局

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。