初学者：了解BERT

最新推荐文章于 2023-05-25 17:19:44 发布

battle不停息

最新推荐文章于 2023-05-25 17:19:44 发布

阅读量514

点赞数

文章标签： bert 自然语言处理深度学习

原文链接：https://github.com/datawhalechina/learn-nlp-with-transformers/blob/main/docs/%E7%AF%87%E7%AB%A02-Transformer%E7%9B%B8%E5%85%B3%E5%8E%9F%E7%90%86/2.3-%E5%9B%BE%E8%A7%A3BERT.md

版权

BERT

了解BERT
- BERT句子分类
- 模型结构
- 模型输出
- 预训练任务：Mask Language Model
- 与训练任务：相邻句子判断
- BERT的应用
- BERT特征提取

上一节学了将Attention发扬光大的模型Transform，今天讲学习把Transform模型发扬光大的经典模型：BERT。

BERT在2018年提出，BERT一出现就打破了多个自然语言处理任务的最好记录。BERT的论文发表不久，BERT团队就公开模型的代码，并且提供了基于大规模预训练的模型下载。BERT的模型代码和模型参数的开源，，使得任何一个NLP从业者，都可以基于这个强大的模型组件搭建自己的NLP系统，也节省了从零开始训练语言处理模型所需要的时间、精力、知识和资源。

那么BERT具体干了一件什么事情呢？如下图所示，BERT首先在大规模无监督语料上进行预训练，然后在预训练好的参数基础上增加一个与任务相关的神经网络层，并在该任务的数据上进行微调训，最终取得很好的效果。BERT的这个训练过程可以简述为：预训练+微调（finetune），已经成为最近几年最流行的NLP解决方案的范式。
在这里插入图片描述

BERT句子分类

要想很好的理解BERT，最好先理解一下BERT的使用场景，明确一下输入和输出，最后再详细学习BERT的内在模型结构和训练方法。因此，在介绍模型本身涉及的BERT相关概念之前，让我们先看看如何直接应用BERT。

下载在无监督语料上预训练好的BERT模型，一般来说对应了3个文件：BERT模型配置文件（用来确定Transformer的层数，隐藏层大小等），BERT模型参数，BERT词表（BERT所能处理的所有token）。
针对特定任务需要，在BERT模型上增加一个任务相关的神经网络，比如一个简单的分类器，然后在特定任务监督数据上进行微调训练。（微调的一种理解：学习率较小，训练epoch数量较少，对模型整体参数进行轻微调整）

先来看一下如何使用BERT进行句子分类，假设我们的句子分类任务是：判断一个邮件是“垃圾邮件”或者“非垃圾邮件”，如下图所示。当然除了垃圾邮件判断，也可以是其他NLP任务，比如：

输入：电影或者产品的评价。输出：判断这个评价是正面的还是负面的。
输入：两句话。输出：两句话是否是同一个意思。

在这里插入图片描述
如下图所示，为了能够使用BERT进行句子分类，我们在BERT模型上增加一个简单的classifier层，由于这一层神经网络参数是新添加的，一开始只能随机初始化它的参数，所以需要用对应的监督数据来训练这个classifier。由于classifier是连接在BERT模型之上的，训练的时候也可以更新BERT的参数。

在这里插入图片描述

模型结构

通过上面的例子，了解了如何使用BERT，接下来让我们更深入地了解一下它的工作原理。BERT原始论文提出了BERT-base和BERT—large两个模型，base的参数量比large少一些，可以形象的表示为下图的样子。
在这里插入图片描述
回顾Transformer，BERT模型结构基本上就是Transformer的encoder部分，BERT-base对应的是12层encoder，BERT-large对应的是24层encoder。

模型输入

接着看一下模型的输入和输出：BERT模型输入有一点特殊的地方是在一句话最开始拼接了一个[CLS] token，如下图所示。这个特殊的[CLS] token经过BERT得到的向量表示通常被用作当前的句子表示。除了这个特殊的[CLS] token，其余输入的单词类似Transformer。BERT将一串单词作为输入，这些单词多层encoder中不断向上流动，每一层都会经过 Self-Attention和前馈神经网络。
在这里插入图片描述

模型输出

BERT输入的所有token经过BERT编码后，会在每个位置输出一个大小为 hidden_size（在 BERT-base中是 768）的向量。
在这里插入图片描述
对于上面提到的句子分类的例子，**我们直接使用第1个位置的向量输出（对应的是[CLS]）传入classifier网络，**然后进行分类任务，如下图所示。

为什么选择[cls]表示整句语义？
因为与文本其他已有的词相比，这个无明显语义信息的符号会更公平的融合文本信息，从而更好的代表整句话语义。具体来说，Self-Attention是用文本的其他词来增强目标的于毅表示，试单目标词本身的语义还是会占主要部分。因此，经过BERT的12层，每次词的embedding融合了所有词的信息，可以更好的表示自己的语义。

在这里插入图片描述

预训练任务：Mask Language Model

知道了模型输入、输出、Transformer结构，那么BERT是如何无监督进行训练的呢？如何得到有效的词、句子表示信息呢？以往的NLP预训练通常是基于语言模型进行，比如给定语言模型的前3个词，让模型预测第4个词。但是，BERT是基于Masked language model进行预训练的：将输入文本序列的部分（15%）单词随机Mask掉，让BERT来预测这些被Mask的词语。如下图所示：
在这里插入图片描述
这种训练方式最早可以追溯到Word2vec时代，典型的Word2vec算法便是：基于词C两边的A、B和D、E词来预测出词C。

预训练任务：相邻句子判断

除了masked language model，BERT在预训练时，还引入了一个新的任务：判断两个句子是否是相邻句子——相似度。如下图所示：输入是sentence A和sentence B，经过BERT编码之后，使用CLS token的向量表示来预测两个句子是否是相邻句子。
在这里插入图片描述
注意事项：为了本文的描述方便，在前面的叙述中，均省略了BERT tokenize的过程，但读者朋友需要注意BERT实际上使用的是WordPieces作为最小的处理单元（采用的是wordpiece算法分词）：token，而不是使用单词本身。在 WordPiece中，有些词会被拆分成更小的部分。关于WordPiece分词，本文不过多展开，感兴趣的读者可以阅读和学习subword tokenizer。另外，判断两个句子是否相邻这个任务再后来的研究中逐渐被淡化了，比如roberta模型在被提出的时候就不再使用该任务进行预训练了。

BERT的应用

BERT论文展示了BERT在多种任务上的应用，如下图所示。可以用来判断两个句子是否相似，判断单个句子的情感，用来做抽取式问答，用来做序列标注。
在这里插入图片描述

BERT特征提取

由于BERT模型可以得到输入序列所对应的所有token的向量表示，因此不仅可以使用最后一程BERT的输出连接上任务网络进行微调，还可以直接使用这些token的向量当作特征。比如，可以直接提取每一层encoder的token表示当作特征，输入现有的特定任务神经网络中进行训练。
在这里插入图片描述
那么我们是使用最后一层的向量表示，还是前几层的，还是都使用呢？下图给出了一种试验结果：

本文来自Datawhale组对学习内容，初学者了解的必备之路。

battle不停息

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
初学者：了解BERT

BERT了解BERTBERT句子分类模型结构模型输出预训练任务：Mask Language Model与训练任务：相邻句子判断BERT的应用BERT特征提取上一节学了将Attention发扬光大的模型Transform，今天讲学习把Transform模型发扬光大的经典模型：BERT。BERT在2018年提出，BERT一出现就打破了多个自然语言处理任务的最好记录。BERT的论文发表不久，BERT团队就公开模型的代码，并且提供了基于大规模预训练的模型下载。BERT的模型代码和模型参
复制链接

扫一扫