迁移学习与模型融合问题若干

本文探讨了word2vec与ELMO在语义学习的区别,ELMO通过上下文动态调整解决一词多义问题。接着分析了Batch Normalization与Layer Normalization在BERT中的应用差异,并介绍了GELU激活函数相对于ReLU的特点。此外,还提到了半监督学习的DA方法和模型融合技术的应用。
摘要由CSDN通过智能技术生成

1.word2vec与Elmo模型在语义学习上差异是什么?

word2vec就是nlp中预训练的一种方式。但是word2vec有一个缺点就是无法解决多义词,因为每一个词只有用一个向量表示。

ELMO是“Embedding from Language Models"简称。在此之前word embedding本质是个静态方式,静态的意思就是说单词训练好之后就固定了,在以后使用时,单词不会跟着上下文场景变化而变化。
ELMO的本质思想是:事先用一个语言模型去学习单词的word embedding, 当我在使用时,单词已经具备了特定的上下文,这时候可以根据上下文的语义去调整单词的word embedding, 这样经过调整的word embedding更能表达这个上下文中具体的含义,也就解决了一词多义问题,故ELMO本质就是根据当前上下文对Word Embedding进行动态调整的过程。

https://www.cnblogs.com/zhaopAC/p/11219600.html

https://zhuanlan.zhihu.com/p/75391062

https://zhuanlan.zhihu.com/p/56382372

2.Batch Normalization与Layer Normalization区别?bert中为什么用后者?

当一个batch的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值