1.word2vec与Elmo模型在语义学习上差异是什么?
word2vec就是nlp中预训练的一种方式。但是word2vec有一个缺点就是无法解决多义词,因为每一个词只有用一个向量表示。
ELMO是“Embedding from Language Models"简称。在此之前word embedding本质是个静态方式,静态的意思就是说单词训练好之后就固定了,在以后使用时,单词不会跟着上下文场景变化而变化。
ELMO的本质思想是:事先用一个语言模型去学习单词的word embedding, 当我在使用时,单词已经具备了特定的上下文,这时候可以根据上下文的语义去调整单词的word embedding, 这样经过调整的word embedding更能表达这个上下文中具体的含义,也就解决了一词多义问题,故ELMO本质就是根据当前上下文对Word Embedding进行动态调整的过程。
https://www.cnblogs.com/zhaopAC/p/11219600.html
https://zhuanlan.zhihu.com/p/75391062
https://zhuanlan.zhihu.com/p/56382372
2.Batch Normalization与Layer Normalization区别?bert中为什么用后者?
当一个batch的

本文探讨了word2vec与ELMO在语义学习的区别,ELMO通过上下文动态调整解决一词多义问题。接着分析了Batch Normalization与Layer Normalization在BERT中的应用差异,并介绍了GELU激活函数相对于ReLU的特点。此外,还提到了半监督学习的DA方法和模型融合技术的应用。
最低0.47元/天 解锁文章
844

被折叠的 条评论
为什么被折叠?



