论文解读 | QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION

QANet 是一种新型的机器阅读理解模型,摒弃了RNN,采用卷积和自注意力机制,提高了训练和推理速度。在SQuAD数据集上,QANet比RNN模型快3到13倍,推理速度提高4到9倍,同时保持了相当的准确性。通过反向翻译数据增强,QANet在测试集上实现了84.6的F1分数,优于之前最佳结果。
摘要由CSDN通过智能技术生成

单位 : 燕山大学
作者 : 王 琴

摘 要

  当前使用端到端方法的机器阅读和问答 (Q&A) 模型主要是基于具有注意力的循环神经网络(RNN)。这种方法的确取得了很大的成功,但由于 RNN 的顺序性,这些模型在训练和推理方面通常都很慢。因此作者提出了一种新的问答架构,称为 QANet,它不需要循环网络,编码器完全由卷积和自注意力构成。其中,卷积对局部关系进行建模,使用自注意力对全局关系进行建模。在 SQuAD 数据集上,此模型的训练速度是RNN的 3倍到13 倍,其推理速度提高 4 到 9 倍,并同时能达到与RNN模型相当的准确性。这些优点能让更多的数据参与训练,因此,本文还加入了使用机器翻译模型反向翻译生成的数据。在 SQuAD 数据集上,使用数据增强训练的单一模型在测试集上的F1达到了84.6。这明显优于已发布的最佳 F1 分数 81.8。

1 介 绍

  在过去几年中,端到端模型取得了重大进展,在许多具有挑战性的数据集上显示出很好的结果。它们通常采用两个关键要素:(1) 一个循环模型来处理顺序输入, (2) 一个注意力组件来处理长期交互。BiDAF模型便是这两者的成功组合,并在 SQuAD 数据集上取得了很好的结果。但这些模型的一个缺点是,它们在训练和推理方面通常都很慢,尤其是对于长文本。这不仅导致实验的周转时间长,而且还限制了模型应用于更大的数据集。同时,缓慢的推理限制了机器理解系统在实时应用程序中的表现。

  在本文中,为了使机器理解更快消除了这些模型的循环性,转而使用卷积和自注意力来构建编码器,分别对问题和上下文进行编码。 然后通过标准的注意力机制学习上下文和问题之间的相互作用。在此编码器上再次编码一层,并在之后结合每个位置作为答案开始或结束概率的编码信息,作者称这种架构为 QANet,如图 1 所示。
在这里插入图片描述
  本文模型设计的原因如下:卷积捕获文本的局部结构,而自注意力学习每对单词之间的全局关系。添加的context-query attention是一个用于为文本中的每个位置构建 query-aware 向量的模块,用于后续建模层。此架构的前馈特性显着加快了模型的运行速度。在对 SQuAD 数据集进行的实验中,QANet模型在训练中快了 3 到 13 倍,在推理中快了 4 到 9 倍。作为一个简单的比较,QANet可以在 3 小时的训练内达到与 BiDAF 模型相同的准确度(77.0 F1 分数),原来需要花费 15 小时。提速还允许使用更多的迭代来训练模型,以获得更好的结果。例如,如果训练了18 小时,它在开发集上的 F1 分数为 82.7,这比BiDAF 模型好得多,并且与发布的最佳结果相当。由于此模型速度很快, 为了进一步改进模型,作者引入了数据增强技术来增强训练数据。 该技术通过将原始句子从英语翻译成另一种语言,然后再翻译回英语得到新样本,这不仅增加了训练文本的数量,而且还使措辞多样化。

  在 SQuAD 数据集上,使用数据增强训练的 QANet 在测试集上获得了 84.6 的F1 分数,明显优于之前发布的 81.8 结果。 作者还进行了消融测试,以证明模型的每个模块的有效性。 综上所述,本文的贡献如下:

  • 提出了一种高效的阅读理解模型,该模型完全建立在卷积和自我注意的基础上。与 RNN 相比,这种组合保持了良好的准确性,同时实现了高达 13 倍的训练加速和 9 倍的每次训练迭代。 加
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值