论文BERT（4）: 2018.10 Pre-training of Deep Bidirectional Transformers for Language Understanding；总结

最新推荐文章于 2024-10-07 06:31:57 发布

Ankie（资深技术项目经理）

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量811

点赞数 31

分类专栏： # GPT 人工智能AI 虚拟现实VR 黑客帝国文章标签： bert 人工智能深度学习 gpt-3 语言模型 transformer 微调

本文链接：https://blog.csdn.net/ank1983/article/details/138215421

版权

人工智能AI 虚拟现实VR 黑客帝国同时被 2 个专栏收录

76 篇文章 4 订阅

订阅专栏

GPT

24 篇文章 0 订阅

订阅专栏

4 实验（具体结果省略）

在本节中，我们将展示BERT在11个NLP任务上的微调结果。

4.1 GLUE（The General Language Understanding Evaluation）

通用语言理解评估（GLUE）基准（Wang等，2018a）是一个包含多种自然语言理解任务的集合。GLUE数据集的详细描述包含在附录B.1中。

4.2 SQuAD v1.1 （The Stanford Question Answering Dataset）

斯坦福问答数据集（SQuAD v1.1）是一个包含10万个众包问题/答案对的集合（Rajpurkar等，2016）。给定一个问题以及包含答案的维基百科段落，任务是在段落中预测答案文本的范围。

4.3 SQuAD v2.0

SQuAD 2.0任务通过允许在提供的段落中不存在简短答案的可能性，扩展了SQuAD 1.1的问题定义，从而使问题更加贴近现实。

4.4 SWAG

“具有对抗性生成的情境”（SWAG）数据集包含11.3万个句子对补全示例，用于评估基于常识的推理（Zellers等，2018）。给定一个句子，任务是从四个选项中选择最合理的延续。

5 消融实验Ablation Studies

在本节中，我们对BERT的多个方面进行了消融实验，以便更好地了解它们的相对重要性。可以在附录C中找到其他消融实验。

5.1 预训练任务的影响

我们通过评估两个预训练目标来展示BERT深度双向性的重要性，这两个目标使用了与BERT BASE完全相同的预训练数据、微调方案和超参数：

无NSP（next sentence prediction）：

一个双向模型，它使用“掩蔽语言模型”（MLM）进行训练，但不使用“下一句预测”（NSP）任务。

仅LTR（Left-to-Right）和无NSP（next sentence prediction）：

一个仅使用左上下文的模型，它使用标准的从左到右（LTR）LM进行训练，而不是MLM。在微调时也应用了仅左侧的约束，因为移除它会引入预训练/微调不匹配，导致下游性能下降。此外，该模型在没有NSP任务的情况下进行了预训练。这可以直接与OpenAI GPT进行比较，但使用的是我们更大的训练数据集、输入表示以及微调方案。

我们首先考察NSP任务带来的影响。在表5中，我们展示了移除NSP对QNLI、MNLI和SQuAD 1.1的性能造成了显著损害。接下来，我们通过比较“无NSP”和“仅LTR和无NSP”来评估训练双向表示的影响。LTR模型在所有任务上的表现都差于MLM模型，特别是在MRPC和SQuAD上出现了大幅下降。

对于SQuAD，直观上很明显LTR模型在令牌预测方面的表现会很差，因为令牌级别的隐藏状态没有右侧上下文。为了真诚地尝试加强LTR系统，我们在其顶部添加了一个随机初始化的BiLSTM。这确实显著提高了SQuAD上的结果，但结果仍然远差于预训练的双向模型。BiLSTM对GLUE任务的性能造成了损害。

我们认识到，也可以分别训练LTR和RTL模型，并将每个令牌表示为这两个模型的拼接，就像ELMo所做的那样。但是：（a）这比单个双向模型贵两倍；（b）这对于像QA这样的任务来说并不直观，因为RTL模型无法根据问题对答案进行条件判断；（c）它在严格意义上不如深度双向模型强大，因为它可以在每一层都使用左侧和右侧上下文。

5.2 模型大小的影响

在本节中，我们探讨了模型大小对微调任务准确性的影响。我们训练了多个BERT模型，这些模型具有不同数量的层、隐藏单元和注意力头，但其他方面使用了与之前描述相同的超参数和训练程序。

表6中显示了选定GLUE任务的结果。在表中，我们报告了微调5次随机重启后的平均开发集准确率。我们可以看到，在所有四个数据集上，更大的模型都带来了严格的准确率提升，即使对于MRPC也是如此，它只有3600个带标签的训练样本，并且与预训练任务大不相同。也许令人惊讶的是，我们能够在已经相对于现有文献相当大的模型基础上实现如此显著的改进。例如，Vaswani等人（2017）探索的最大的Transformer模型是（L=6，H=1024，A=16），编码器包含1亿个参数，而我们在文献中找到的最大的Transformer模型是（L=64，H=512，A=2），包含2.35亿个参数（Al-Rfou等人，2018）。相比之下，BERT BASE包含1.1亿个参数，而BERT LARGE包含3.4亿个参数。

长期以来，人们一直知道增加模型大小将导致机器翻译和语言建模等大规模任务上的持续改进，如表6所示，通过对保留的训练数据进行语言模型困惑度（perplexity）的展示证明了这一点。然而，我们相信这是第一项工作，能够令人信服地证明，在模型得到充分预训练的前提下，将模型规模扩大到极端大小也能在非常小规模的任务上带来巨大改进。Peters等人（2018b）提出了增加预训练双向语言模型（bi-LM）大小从两层到四层对下游任务影响的混合结果，而Melamud等人（2016）顺便提到，将隐藏维度大小从200增加到600有所帮助，但进一步增加到1000并没有带来进一步的改进。这两项先前的工作都使用了基于特征的方法——我们假设，当模型直接在下游任务上进行微调，并且仅使用少量随机初始化的附加参数时，特定任务的模型即使在下游任务数据非常小的情况下，也能从更大、更具表达性的预训练表示中受益。

5.3 基于BERT的特征方法

到目前为止，所有展示的BERT结果都采用了微调方法，即在预训练模型上添加一个简单的分类层，并在下游任务上对所有参数进行联合微调。然而，基于特征的方法，即从预训练模型中提取固定特征，具有某些优势。首先，并非所有任务都可以轻松地使用Transformer编码器架构来表示，因此需要添加特定任务的模型架构。其次，预先计算训练数据的昂贵表示形式，然后在此表示形式的基础上使用更便宜的模型进行多次实验，可以带来计算上的巨大好处。在本节中，我们通过将BERT应用于CoNLL-2003命名实体识别（NER）任务（Tjong Kim Sang和De Meulder，2003），比较了这两种方法。在BERT的输入中，我们使用保留大小写的WordPiece模型，并包含数据提供的最大文档上下文。按照标准做法，我们将其制定为标记任务，但在输出中不使用CRF层。我们使用第一个子标记的表示作为NER标签集上令牌级别分类器的输入。

为了验证微调方法的有效性，我们采用基于特征的方法，从一层或多层中提取激活值，而不微调BERT的任何参数。这些上下文嵌入被用作分类层之前的随机初始化的两层768维双向长短期记忆网络（BiLSTM）的输入。

结果如表7所示。BERT LARGE与最先进的方法相比具有竞争力。表现最佳的方法将预训练Transformer的前四个隐藏层的令牌表示拼接起来，这仅比微调整个模型低0.3个F1值。这证明了BERT在微调和基于特征的方法上都是有效的。

6 结论

由于使用语言模型的迁移学习带来的近期实证改进表明，丰富、无监督的预训练是许多语言理解系统不可或缺的一部分。特别是，这些结果使得即使是资源较少的任务也能从深度单向架构中受益。我们的主要贡献是将这些发现进一步推广到深度双向架构，使得相同的预训练模型能够成功地处理广泛的自然语言处理任务。

Ankie的评论：

BERT这一论文的核心观点在于，它巧妙地融合了ELMo的双向性特征和GPT的微调策略。经过一系列实验验证，我们发现这种双向性与微调技术的结合，确实能显著提升模型在各项任务上的表现。更进一步地，当我们通过增加模型的大小来扩展其容量时，模型的性能还能得到进一步的提升。这些发现共同构成了BERT论文的关键论点，展示了其在自然语言处理领域的强大潜力与优势。