BERT论文略读

最新推荐文章于 2024-09-15 15:29:29 发布

cv2016_DL

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量750

点赞数 23

文章标签： bert 人工智能深度学习

本文链接：https://blog.csdn.net/u012374012/article/details/140014199

版权

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》（https://arxiv.org/abs/1810.04805）

摘要：前人优秀工作仅用了单向信息且不能很好的应用到各类下游任务，本文提出一种基于Transformer的双向处理预训练模型——BERT，在预训练完成后，采用统一的结构进行多个NLP下游任务微调，均达到SOTA。

BERT模型关键词：预训练；双向信息；MLM（Masked Language Model）预训练任务；NSP（Next Sentence Predict）预训练任务。

1.预训练相关工作

BERT之前的ELMo和GPT都是预训练机制，并且取得不错成绩，但他们都是基于单向的，存在缺点。 BERT为了解决单向预训练带来的不足，引入了MLM和NSP两个预训练任务，让模型能够从双向来理解语言。

BERT模型结构

BERT的构建与使用分为两个阶段，预训练和微调。所有下游任务微调时，均采用预训练好的参数进行全局初始化、全局训练。

BERT模型结构很简单，完全基于Transformer的encoder，并且有base和large两个版本，attention block、hidden size 和 head分别为(L=12, H=768, A=12, Total Parameters=110M) (L=24, H=1024,A=16, Total Parameters=340M)。

BERT的输入设计很巧妙，使得一个结构适应了多个NLP任务。输入设计为序列形式，将一个句子、两个句子都组装成为一个序列，输入到模型中。输入上，设计了两个特殊的token，cls和sep。

cls：可以理解为序列的全局特征，用于文本分类、情感分析这类的seq2cls的任务。

sep：用于将句子1和句子2进行拼接的token。

在embedding处理上，设计了额外的segment embedding来标记句子是第一句、还是第二句。具体的输入embedding由三部分组成，如下图所示：

2.BERT的预训练——MLM

BERT的第一种预训练任务是MLM（masked language model），是对一句话中的一些单词进行隐藏，然后让模型根据上下文内容，在该mask的token位置上要求预测该单词。例如：“白切鸡” 经过MLM处理变为 “白mask鸡”，输入到BERT 模型，BERT模型的输出标签是“白切鸡“。

在进行mask是需要一定概率的，文章中对全文的15%的token进行遮罩，然后这15%里，80%真正变为mask，10%为随机token，10%为原始token。这么做的原因是，下游任务中并没有mask这个特殊token，为了保障微调时的性能，这里做了这样的设置。（ a downside is that we are creating a mismatch between pre-training and fine-tuning, since the [MASK] token does not appear during fine-tuning. ）