作者:迪
单位:燕山大学
论文来源:ACL2021
前言
机器阅读理解是一项具有挑战性的任务,尤其是对于查询具有深层次和上下文相关性非常强的的文档。基于Transformer的方法在这项任务中表现优异;然而,它们中的大多数方法仍然将文档视为一个扁平的序列。这项工作提出了一种新的基于Transformer的方法,按照树切片的方式读取文档。它包含两个模块,分别是识别更相关的文本段落和提取最佳的答案跨度,这两个模块不仅是联合训练的,而且在推理时也是联合使用的。评估结果表明,所提出的方法在来自不同领域的两个数据集上优于几种竞争的基线方法。
概述
在这项工作中,我们探索了利用文档结构来实现文档的细粒度机器阅读理解。我们提出了一种基于Transformer的方法,将文档作为树切片来读取;它联合学习段落和跨度的相关性,然后执行级联推理以找到最佳答案跨度。该工作受到人们如何基于标题和字幕等结构线索通读文档,然后专注于相关部分来搜索答案的启发。利用在线文档中自然获得的结构信息来识别树切片。每个切片对应于从根节点到较低级别子节点的路径上的所有节点,如下图右侧所示。因此,该方法能够捕获推理的基本结构信息,这些信息可能在传统的滑动窗口或文本段之外。与Longformer (Beltagy等人,2020)或ETC (Ainslie等人,2020)等方法相比,我们的方法可以直接应用于许多现有的预训练模型,并且具有较小的GPU内存占用。
主要贡献
- 作者提出了一种基于Transformer的方法,可以将文档读为树。它同时识别段落的相关性,并通过带有级联推理的训练模型找到答案跨度。
- 该方法可以利用许多Web文档中看到的共同结构。它允许Transformer模型以更加聚焦深层次的内容读取;因此,它可用于以有效的处理长文档。
- 该方法优于两种MRC任务的几种竞争基线方法,其中包括来自不同领域的文档。
模型
采用基于Transformer的文档树切片编码器,具有联合学习和级联推理的能力。该方法受到阅读期间人类行为模式的影响,这专注于较少的部分,并在寻找答案时倾向于更相关的部件。这种方法还可以克服常用的Transformer架构允许的固定长度输入的限制。更重要的是,这使我们能够在编码期间始终包含重要的上下文信息。
树切片
要获取网页的树形表示,我们将不同级别的HTML标题标记作为分层结构的主要指标,如上图中的父子节点。将数据集定义为 ( Q , D , s , e ) (Q,D,s,e) (Q,D,s,e),其中 Q Q Q是问题, D D D是文档, s , e s,e s,e分别表示答案跨度的开始位置与结束位置。
假设一个模型不考虑文档结构信息,直接将 D D D当做一个序列送入Transformer的编码器中。对于长文档,Transformer方法采用滑动窗口机制,将 D D D且分为 m m m段具有重叠片段的 D 1 , … D m D_1,…D_m D1,…Dm,并且 ( Q , D , s , e ) (Q,D,s,e) (Q,D,s,e)被转换成 m m m段训练实例 ( C i , s i , e i ) (C_i,s_i,e_i) (Ci,si,ei),其中 C i = ( [ C L S ] , Q 1 , … , Q ∣ Q ∣ , [ S E P ] , D i , 1 , … D