论文信息:
论文题目:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文发表时间:2018年10月11日
机构:Google AI
简介
文献解决的问题:提出一个语言表征的模型,叫BERT(Bidirectional Encoder Representations from Transformers)
特点:与传统的语言表征模型不同,BERT使用的是深度双向表征,即在每一层中同时基于左边和右边的context来做预测。
优势:预训练的BERT模型只需要在上面增加额外的一层,就能广泛地于多种NLP任务中进行fine-tune.
结果:在11项NLP任务上都取得了state of art的成绩。
模型主体
1 模型结构
BERT是基于Vaswani et al(2017)的论文"Attention is all you need"中提出的transformer模型构建的多层双向transformoer encoder.
(关于"Attention is all you need"该篇文献的介绍可参见https://blog.csdn.net/sinat_33761963/article/de