论文BERT（2）: 2018.10 Pre-training of Deep Bidirectional Transformers for Language Understanding；相关工作

最新推荐文章于 2024-09-17 16:52:57 发布

Ankie（资深技术项目经理）

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量908

点赞数 24

分类专栏：人工智能AI 虚拟现实VR 黑客帝国 # GPT 文章标签：人工智能 bert 深度学习语言模型 transformer 自然语言处理 gpt-3

本文链接：https://blog.csdn.net/ank1983/article/details/138202089

版权

人工智能AI 虚拟现实VR 黑客帝国同时被 2 个专栏收录

76 篇文章 4 订阅

订阅专栏

GPT

24 篇文章 0 订阅

订阅专栏

本文回顾了预训练通用语言表征的历史，重点介绍了无监督特征方法（如ELMo）和无监督微调方法（如OpenAIGPT），以及从有监督数据中迁移学习的应用。强调了双向处理和无监督学习在提升NLP性能中的关键作用。

摘要由CSDN通过智能技术生成

2 相关工作Related Work

预训练通用语言表征有着悠久的历史，本节简要回顾最常用的方法。

2.1 基于无监督特征的方法Unsupervised Feature-based Approaches

学习广泛适用的单词表征是几十年来一直活跃的研究领域，包括非神经方法和神经方法。预训练的词嵌入是现代NLP系统的重要组成部分，相比于从头开始学习的嵌入，它们提供了显著的改进。为了预训练词嵌入向量，已经使用了从左到右的语言建模目标，以及从左右上下文中区分正确与错误单词的目标。

这些方法已经推广到更粗的粒度，例如句子嵌入或段落嵌入。为了训练句子表征，先前的工作使用了对候选下一个句子进行排序的目标，给定前一个句子的表示，从左到右生成下一个句子的单词，或从去噪自编码器派生的目标。

ELMo及其前身（Peters等人，2017，2018a）从另一个维度对传统词嵌入研究进行了泛化。它们从从左到右和从右到左的语言模型中提取上下文敏感特征。每个标记的上下文表示是从左到右和从右到左的表示的连接。在将上下文词嵌入与现有特定任务的架构集成时，ELMo在多个主要的NLP基准测试（Peters等人，2018a）中取得了最先进的成果，包括问答（Rajpurkar等人，2016）、情感分析（Socher等人，2013）和命名实体识别（Tjong Kim Sang和De Meulder，2003）。Melamud等人（2016）提出通过学习上下文表示来预测从左和右上下文中单个单词的任务，使用了长短期记忆网络（LSTMs）。与ELMo类似，他们的模型也是基于特征的，而不是深度双向的。Fedus等人（2018）表明，cloze任务可以用于提高文本生成模型的鲁棒性。

2.2 无监督微调方法Unsupervised Fine-tuning Approaches

与基于特征的方法一样，这个方向上的早期工作仅从未标记的文本中预训练了词嵌入参数（Collobert和Weston，2008）。

最近，产生上下文标记表示的句子或文档编码器已从未标记的文本中进行了预训练，并针对有监督的下游任务进行了微调（Dai和Le，2015；Howard和Ruder，2018；Radford等人，2018）。这些方法的一个优点是，只需要从头开始学习少量参数。至少部分由于这个优势，OpenAI GPT（Radford等人，2018）在GLUE基准（Wang等人，2018a）的许多句子级别任务上达到了之前的最先进结果。左到右的语言建模和自编码器目标已被用于预训练此类模型。

2.3 从有监督数据中迁移学习Transfer Learning from Supervised Data

也有研究工作显示，从具有大型数据集的有监督任务中迁移学习是有效的，如自然语言推理（Conneau等人，2017）和机器翻译（McCann等人，2017）。计算机视觉研究也证明了从大型预训练模型中迁移学习的重要性，其中有效的做法是微调使用ImageNet进行预训练的模型。

Ankie的评论：

在“相关工作”（Related Work）部分，作者通常会回顾前人在此领域的探索与成果，为后续的讨论奠定坚实的基础。通过梳理之前的研究状态，论文作者通常会提出自己的独特见解和新的研究思路，以推动该领域的进一步发展。

1，无监督特征的方法（Unsupervised Feature-based Approaches），我们重点关注了ELMo的工作。这项工作强调了词嵌入预训练的重要性，并且特别指出了双向处理的必要性。通过无监督的方式对词嵌入进行预训练，我们能够获得更为丰富和准确的词表示，为后续的任务提供有力的支持。

2，无监督微调方法（Unsupervised Fine-tuning Approaches），其中的代表是GPT-1。这种方法基于Transformer模型进行预训练，并通过微调来适应不同的下游任务。通过预训练，模型能够学习到更为丰富的语言结构和语义信息，从而提高在下游任务上的表现。

3，讨论了从有监督数据中迁移学习（Transfer Learning from Supervised Data）的方法。这种方法主要依赖于带有标签的数据集进行训练，如翻译配对等任务。然而，随着研究的深入，我们发现无监督数据在许多情况下能够取得更好的效果，因此GPT等无监督方法逐渐替代了这种有监督迁移学习的方式。