BERT理论学习_10

https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4g

https://www.cnblogs.com/d0main/p/10165671.html

ELMO由双向LSTM作为特征获取器,最后得到了三层embedding,最底层是单词的word embedding,向上一层为单词位置的embedding,句法信息多一些;再向上也是单词位置的embedding,语法信息多一些。对于新的一个句子,将会得到三个embedding,然后有一个权重A,将三个embedding进行整合。

然而,1.LSMT提取特征的能力弱于transformer(在2017年google的机器翻译任务"attention is all you need",本质上是attention叠加结构,[【transformer>LSTM>CNN】那么trainsormer和CNN有社么区别呢);2凭借方式双向融合特征能力偏弱。

GPT(generative pre-training)的预训练依然以语言模型作为目标任务,与ELMO不同的是,GPT只用了上文来进行训练。在下游任务上,需要把任务的网络结构该程和GPT一样的,然后在做下游任务时将第一步预训练好的语言学知识引入手头的任务(不同的结构为什么不可以)。

BERT采用了和GPT完全相同的两阶段模型,语言模型训练,然后fine-tuning解决下游任务。和GPT最主要的区别是使用了 类似ELMO的双向训练方式(transformer),数据集也比GPT大。对于四大类任务,1.句子任务;2.分类;3.序列标注;4.句子生成都可以很方便地改造为BERT接受的方式。BERT有两个要点:1.采用了transformer做特征提取器;2.采用了双向语言模型。跟ELMO的双向方式不同,其是在完形填空(CBOW)的方式进行训练,通过窥视上下文。

[masked]标记中的80%被真正替换为[masked],10%被随机替换为另外一个单词,10%原地不动。训练语言模型的过程中顺带还做next sentence prediction的任务,大致是选择真正相连的句子,另一种是随机选择一个句子后面的句子拼接起来。[CLS] 句子1 [sep] 句子2[sep]  其中[CLS]代表类别。

BERT的每个单词有3个embedding,分别为位置,单词,句子embedding。

BERT采用了transformer的架构,内部也是encoders-decoders的结构。

BERT比transformer更多头,bert base有12个,bert large有16个。

12层encoder类似于ELMO的三层特征提取网络结构嘛?之前听说过使用BERT的后四层,是说后面四层的decoder结构以及参数?

https://mp.weixin.qq.com/s/1y8jTqCcI7HkMA3qXtqdIg

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值