BERT理论学习_10

最新推荐文章于 2022-08-30 09:57:11 发布

rebirth_2020

最新推荐文章于 2022-08-30 09:57:11 发布

阅读量323

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_25992377/article/details/90705241

版权

NLP 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4g

https://www.cnblogs.com/d0main/p/10165671.html

ELMO由双向LSTM作为特征获取器，最后得到了三层embedding，最底层是单词的word embedding，向上一层为单词位置的embedding，句法信息多一些；再向上也是单词位置的embedding，语法信息多一些。对于新的一个句子，将会得到三个embedding，然后有一个权重A，将三个embedding进行整合。

然而，1.LSMT提取特征的能力弱于transformer（在2017年google的机器翻译任务"attention is all you need"，本质上是attention叠加结构,[【transformer>LSTM>CNN】那么trainsormer和CNN有社么区别呢）；2凭借方式双向融合特征能力偏弱。

GPT（generative pre-training)的预训练依然以语言模型作为目标任务，与ELMO不同的是，GPT只用了上文来进行训练。在下游任务上，需要把任务的网络结构该程和GPT一样的，然后在做下游任务时将第一步预训练好的语言学知识引入手头的任务（不同的结构为什么不可以）。

BERT采用了和GPT完全相同的两阶段模型，语言模型训练，然后fine-tuning解决下游任务。和GPT最主要的区别是使用了类似ELMO的双向训练方式（transformer）,数据集也比GPT大。对于四大类任务，1.句子任务；2.分类；3.序列标注；4.句子生成都可以很方便地改造为BERT接受的方式。BERT有两个要点：1.采用了transformer做特征提取器；2.采用了双向语言模型。跟ELMO的双向方式不同，其是在完形填空（CBOW）的方式进行训练，通过窥视上下文。

[masked]标记中的80%被真正替换为[masked]，10%被随机替换为另外一个单词，10%原地不动。训练语言模型的过程中顺带还做next sentence prediction的任务，大致是选择真正相连的句子，另一种是随机选择一个句子后面的句子拼接起来。[CLS] 句子1 [sep] 句子2[sep] 其中[CLS]代表类别。

BERT的每个单词有3个embedding，分别为位置，单词，句子embedding。

BERT采用了transformer的架构，内部也是encoders-decoders的结构。

BERT比transformer更多头，bert base有12个，bert large有16个。

12层encoder类似于ELMO的三层特征提取网络结构嘛？之前听说过使用BERT的后四层，是说后面四层的decoder结构以及参数？

https://mp.weixin.qq.com/s/1y8jTqCcI7HkMA3qXtqdIg

rebirth_2020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BERT理论学习_10

https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4ghttps://www.cnblogs.com/d0main/p/10165671.htmlELMO由双向LSTM作为特征获取器，最后得到了三层embedding，最底层是单词的word embedding，向上一层为单词位置的embedding，句法信息多一些；再向上也是单词位置的embed...
复制链接

扫一扫

专栏目录