Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

最新推荐文章于 2023-11-12 21:23:00 发布

akon_wang_hkbu

最新推荐文章于 2023-11-12 21:23:00 发布

阅读量1.4k

点赞数 4

分类专栏：深度学习论文解读文章标签：自然语言处理

本文链接：https://blog.csdn.net/akon_wang_hkbu/article/details/108081938

版权

本文深入探讨了上下文语言模型（CLM）在机器阅读理解（MRC）中的作用，从语言模型到语言表示，再到CLM的现象，如演变、架构和衍生模型。MRC的兴起受到了深度学习和CLM的推动，其技术方法包括两阶段解决架构，强调了CLM在捕获句子级语言信息和上下文相关表示的重要性。研究还分析了预训练和微调策略、数据增强和模型优化。未来趋势包括对模型解释性、复杂推理能力和大规模理解的追求，以及多模态语义基础和高效网络设计的研究。

摘要由CSDN通过智能技术生成

机器阅读理解（MRC）旨在教机器阅读和理解人类语言，这是自然语言处理（NLP）的长期目标。随着深度神经网络的爆发和上下文语言模型（contextualized language models-CLM）的发展，MRC的研究经历了两个重大突破。作为一种现象，MRC和CLM对NLP社区有很大的影响。在本次调查中，我们提供了有关MRC的全面，比较性综述，涵盖了有关以下方面的总体研究主题：1）MRC和CLM的起源和发展，尤其着重于CLM的作用；2）MRC和CLM对NLP社区的影响； 3）MRC的定义，数据集和评估； 4）从人类认知过程的角度出发，从两阶段编码器-解码器解决架构的角度来看，一般的MRC架构和技术方法；5）以前的重点，新兴的话题以及我们的经验分析，其中我们特别关注在MRC研究的不同时期有效的方法。我们建议对这些主题进行全视图分类和新的分类法。我们得出的主要观点是：1）MRC促进了从语言处理到理解的进步； 2）MRC系统的快速改进极大地受益于CLM的开发； 3）MRC的主题正逐渐从浅的文本匹配转变为认知推理。

1.Introduction

自然语言处理（NLP）任务可以大致分为两类：1）基本的NLP，包括语言建模和表示，以及语言结构和分析，包括形态分析，分词，句法，语义和语篇配对等；2）NLP应用，包括机器问答，对话系统，机器翻译以及其他语言理解和推理任务。随着NLP的飞速发展，自然语言理解（NLU）引起了广泛的兴趣，一系列的NLU任务应运而生。在早期，NLU被视为NLP的下一阶段。随着更多可用的计算资源，更复杂的网络成为可能，并且激励研究人员朝着人类语言理解的前沿发展。在NLU领域，机器阅读理解（MRC）作为一项新的典型任务不可避免地蓬勃发展。图1概述了语言处理和理解背景下的MRC

MRC是NLU的一项长期目标，旨在教机器读取和理解文本数据。它具有重要的应用场景，例如问题解答和对话系统. MRC的相关研究可以追溯到故事理解的研究. 经过数十年的衰落，MRC成为最近的热门研究课题，并且经历了快速的发展。 MRC对NLU和更广泛的NLP社区具有至关重要的影响。作为涉及综合知识表示，语义分析和推理的NLP的主要挑战性问题之一，MRC在过去十年中激发了巨大的研究兴趣。MRC的研究经历了两个重要的高峰，即：1）深度神经网络的爆发； 2）上下文化语言模型（CLM）的发展。图2显示了过去五年中MRC和CLM的研究趋势统计。

随着深度神经网络的引入和像NLP中的注意机制这样的有效架构，MRC的研究兴趣自2015年左右开始蓬勃发展。主要主题是细粒度的文本编码以及更好的段落和问题交互.

CLM引领上下文化语言表示的新天堂-使用整个句子级别的表示进行语言建模作为预训练，而LM的上下文相关隐藏状态用于下游任务特定的fine-tuning。深度预训练的CLM大大增强了语言编码器的功能，MRC的基准测试结果显着提高，这刺激了向更复杂的阅读，理解和推理系统发展的过程。结果，MRC的研究越来越接近于人类认知和现实应用。另一方面，越来越多的研究人员有兴趣分析和解释MRC模型的工作原理，并研究数据集之外的真实能力，例如对抗攻击的表现以及MRC数据集的benchmark的容量。人们普遍担心的是，MRC系统的能力被高估了，这表明它仍然处于浅表理解阶段，这是从表面模式匹配启发式方法得出的。对模型和数据集的这种评估对于MRC方法学的下一阶段研究将具有启发性。

尽管很明显，从长远来看，计算能力极大地增强了MRC系统的能力，但构建简单，可解释且实用的模型对于实际应用同样重要。回顾过去的突出亮点是有益的。通用性质，尤其是过去的有效方法以及MRC对NLP社区的启发，将为将来的研究提供启示，这是本工作讨论的重点。

这项工作审查了MRC，涵盖了背景，定义，影响，数据集，技术和基准测试成功率，经验评估，当前趋势和未来机会的范围。我们的主要贡献概述如下：

全面审查和深入讨论

我们对MRC的起源和发展进行了全面的回顾，特别关注了CLM的作用。通过从认知心理学的角度将MRC系统表述为两阶段求解体系，我们提出了MRC技术体系的新分类法，并对研究主题进行了全面的讨论以获取见解。通过调查有关不同类型的MRC的典型模型和主要旗舰数据集和排行榜的趋势，以及我们的经验分析，我们可以观察到不同研究阶段技术的进步。

涵盖重点和新兴主题

MRC经历了快速的发展。我们介绍了以前的重点和新兴主题，包括将传统的NLP任务转换为MRC形式，多种粒度特征建模，结构化知识注入，上下文化的句子表示，匹配交互和数据增强，涵盖了这些内容。

未来展望

这项工作总结了未来研究的趋势和讨论，包括数据集和模型的可解释性，先决技能的分解，复杂的推理，大规模理解，低资源MRC，多模式语义基础以及更深而有效的模型设计。

本调查的其余部分安排如下：首先，我们介绍了CLM的背景，分类和派生词，并在§2中讨论了CLM和MRC之间的相互影响。 §3中给出了MRC的概述，包括对一般NLP范围，编队，数据集和评估指标的影响；然后，我们从两阶段求解体系结构的角度讨论技术方法，并总结第4节中的主要主题和面临的挑战；接下来，我们将在§5中进行更深入的研究，通过回顾典型MRC模型中的趋势和重点，发现在MRC的不同阶段有效的方法。我们的经验分析也被报告用于验证基于强大CLM的简单有效的策略优化；最后，我们在§6中讨论了趋势和未来机会，并在§7中得出了结论。

2. The Role of Contextualized Language Model

2.1 From Language Model to Language Representation

语言建模是用于自然语言处理的深度学习方法的基础。学习单词表示法一直是一个活跃的研究领域，并引起了数十年的巨大研究兴趣，包括非神经方法和神经方法。关于语言建模，基本主题是n-gram语言模型（LM）。 n-gram语言模型是单词（n-gram）序列上的概率分布，可以将其视为从（n-1）-gram预测unigram的训练目标。神经网络使用连续且密集的表示形式，或者进一步word embedding来进行预测，这对于减轻维数的诅咒是有效的–随着在越来越大的文本上训练语言模型，唯一词的数量增加。与Word2Vec或GloVe所学习的词嵌入相比，句子是人类使用语言时能提供完整含义的最小单位。 NLP的深度学习很快发现，这是使用网络组件对句子输入进行编码的常见要求，因此我们需要使用Encoder对整个句子级别的上下文进行编码。编码器可以是传统的RNN，CNN或最新的基于Transformer的架构，例如（例如ELMo，GPT，BERT，XLNet），RoBERTa，ALBERT和ELECTRA，用于捕获上下文化的句子级语言表示形式。这些编码器与滑动窗口输入（例如Word2Vec中使用的编码器）的不同之处在于它们覆盖整个句子，而不是滑动窗口使用的任何固定长度的句子片段。当我们必须在MRC任务中处理段落时，这种区别尤其重要，因为段落中总是包含很多句子。当模型面对段落时，句子而不是单词是段落的基本单位。换句话说，MRC以及NLP的其他应用程序任务都需要一个句子级编码器，以将句子表示为嵌入内容，从而捕获深度和上下文相关的句子级信息。

可以采用n-gram语言模型的样式来训练编码器模型，以便出现语言表示，其中包括四个元素：1）表示形式； 2）上下文； 3）训练对象（例如n-gram语言模型）； 4）用法。对于上下文化语言表示，每个单词的表示取决于使用该单词的整个上下文，这是动态embedding。表1给出了三种主要语言表示方法的比较。

2.2 CLM as Phenomenon

2.2.1 Revisiting the Definition.

首先，我们想回顾一下最近的上下文编码器的定义。对于代表性模型，ELMo被称为深度上下文化词表示，以及用于语言理解的深度双向转换器的BERT预训练。随着后续研究的进行，有研究称这些模型为预训练（语言）模型. 我们认为这样的定义是合理的，但不够准确。就语言表示体系结构的演变以及当今这些模型的实际用法而言，应该将这些模型的重点放在上下文中（以ELMo的名义显示）。作为有限的计算资源的共识，通常的做法是在公开预训练的资源之后使用特定于任务的数据微调模型，因此预训练既不是必需的，也不是核心要素。如表1所示，训练目标是从n-gram语言模型得出的。因此，我们认为预训练和微调只是我们使用模型的方式。本质是语言模型中的深度上下文表示；因此，在本文中，我们称这些预训练模型为上下文化语言模型（CLM）。

2.2.2 Evolution of CLM Training Objectives.

在这一部分中，我们将抽象出n-gram语言模型与随后的上下文化LM技术之间的内在联系。然后，考虑培训目标的重要作用，我们详细阐述了典型CLM的演变。

关于语言模型的训练，标准和通用做法是使用n-gram语言建模。这也是CLM中的核心培训目标。 n-gram语言模型在文本（n-gram）序列上产生概率分布，这是经典的最大似然估计（MLE）问题。语言建模也称为自回归（AR）方案。

具体而言，给定一个文本中的n个项的序列（图3），该序列的概率测量为

其中表示序列中的条件概率,以通过上的上下文表示来估计。 LM训练是通过最大化可能性来执行的：

其中θ表示模型参数

在实践中，已证明n-gram模型在建模语言数据方面非常有效，而语言数据是现代语言应用程序的核心组成部分。早期的上下文表示是通过静态word embedding和网络编码器获得的。例如，CBOW和Skip-gram要么使用上下文预测单词，要么逐单词预测上下文，其中n-gram上下文由固定的滑动窗口提供。训练后的模型参数作为单词嵌入矩阵（也称为查找表）输出，其中包含词汇表中每个单词的上下文无关表示。然后将向量用在神经网络的低层（即嵌入层）中，并且进一步使用编码器（例如RNN）来获取输入句子的上下文表示。

对于最近的LM派生的上下文呈现，后续优化的重点是上下文。他们用更大的n-grams训练，它们覆盖了整个句子，其中n扩展到句子长度-当n扩展到最大时，条件上下文因此对应于整个序列。单词表示是整个句子的功能，而不是预定义查找表上的静态向量。相应的功能模型被视为上下文化语言模型。这样的上下文模型可以直接用于为任务特定的微调生成上下文敏感的句子级别表示。表2显示了CLM的比较。

对于输入句子，我们从等式（2）在长度L的上下文中扩展n-gram语法LM的目标：

其中c是将序列分为非目标条件子序列k≤c和目标子序列k> c的切入点。它可以进一步以双向形式编写：

它对应于ELMo中使用的双向LM。 ELMo的双向建模是通过独立训练的向前和向后LSTM的串联实现的。

为了允许同时进行双向（或非定向）训练，BERT采用了Transformer一次处理整个输入，并提出了Masked LM（MLM）以利用左右上下文的优势。句子中的某些标记被概率很小的特殊掩码符号随机替换。然后，训练模型以基于上下文预测被屏蔽的tokens。

在某种程度上，可以将MLM视为n-gram LM的一种变体（图4（a）--双向自回归n-gram LM.令D使用掩码符号[M]表示掩码位置的集合。为被屏蔽tokens的集合，为被屏蔽语句的集合。如图4（b）左侧所示，和 MLM的目标是最大化以下目标：

与等式（4）相比，很容易发现预测是基于等式（5）中的整个上下文，而不是每个估计仅基于一个方向，这表明了BERT和ELMo的主要差异。但是，BERT的本质问题是，在进行微调时始终看不到mask符号，这会导致预训练和微调之间不匹配.

为了缓解这个问题，XLNet利用置换LM（PLM）使因子分解阶的所有可能置换的预期对数似然性最大化，这是AR LM的目标。对于输入句子，我们将作为排列组合集{1,2,···,L}。

对于排列组合，我们将z分为非目标条件子序列z≤c和目标子序列z> c，其中c是切点。目的是最大化以非目标tokens为条件的目标tokens的对数似然性：

MLM和PLM的关键都是根据从n-gram导出的特定上下文来预测单词，这些单词可以在统一视图中建模。详细地，在单词顺序不敏感的假设下，当输入句子是可置换的（具有不敏感的单词顺序）时，MLM可以直接统一为PLM，如图4（b-c）所示。由于基于BERT和XLNet的基于Transformer的模型的性质，因此可以满足要求。 Transformer将标记及其在句子中的位置作为输