bert论文解析——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2023-05-04 21:00:41 发布

da_kao_la

最新推荐文章于 2023-05-04 21:00:41 发布

阅读量2.9k

点赞数 4

分类专栏： NLP 文章标签： NLP 机器学习 bert

本文链接：https://blog.csdn.net/da_kao_la/article/details/102926018

版权

本文详细解析BERT模型，介绍其作为预训练模型的创新点——Masked LM和NSP，以及在NLP任务上的出色表现。同时，分享了中文BERT模型的fine-tuning过程，包括下载模型、准备数据和使用GPU的步骤。

摘要由CSDN通过智能技术生成

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

前言

bert是google在NLP方面的一个重要的工作，可以说一定程度上改变了NLP领域的研究方式。bert获得了2019 NAACL的最佳长论文奖。

简介

预训练模型

bert，连同之前的ELMO和GPT，可以说开创了NLP的『预训练模型时代』。这3个模型，总体的思想都是采用通用模型架构在语料库(corpus)上预训练(pre-training)；然后针对具体的NLP任务，在通用模型架构上增加几层，固定通用模型的参数，微调(fine-tuning)增加的若干层参数。区别在于，3个模型在通用模型选型和一些训练技术上有所不同。

ELMO	GPT	bert
bi-direction LSTM	single-direction transformer	bi-direction transformer

transformer模型与Attention机制

bert模型，凭借其出色的performance，成为上述3个基于预训练的模型的代表。
这里可能要稍微插一下，目前的趋势是transformer渐渐替代以LSTM为代表的RNN模型成为NLP领域的基础模型。transformer是一种基于Attention机制的网络，由于transformer可以通过Attention将一个sentence中任何两个word联系起来，因此其建模能力强于以LSTM为代表的RNN类模型。另外，由于没有RNN的时序依赖的特点，transformer便于并行计算。具体关于transformer和Attention机制，读者可以移步别的文章，这里就不在旁逸斜出了。

关于计算资源

最后想说的一点是，bert模型的pre-training需要消耗巨量的计算资源和计算时间，一般学校里的实验室都没有那么多计算资源可以进行bert这样的pre-training，但bert的fine-tuning和predicting相对来说消耗资源比较少，学校和个人都是可以跑的。类似CV领域中，研究者下载在ImageNet上预训练的模型参数，bert也开放了在不同语言上训练的模型供大家下载。

创新点

bert创新点主要在2个地方：

针对单向transformer难以捕捉句子中逆序词对的联系的问题，提出了Masked LM，也就是双向transformer，通过Mask词两边的词预测Mask词；
针对sentence-level的NLP问题，提出了NSP (Next Sentence Prediction)，把上下文句子对关系进行训练

Masked LM

bert想要利用一个单词的前后文对单词进行预测，而不是仅仅利用单词的前文（这个motivation还是挺合理的），并在transformer模型中实现了这一点（RNN模型中，bi-direction LSTM就是干这个的）。实现方法是，随机遮住句子中的一个单词（用[Mask] token替代），用句子里前文的单词和后文的单词预测被遮住的单词。
但这样会引入新的问题，即训练集和测试集之间有偏差，因为测试集中是不会出现[Mask] token的。为此，作者的解决方案是，对于以15%随机概率被选中的成为