论文解读 | QANET: COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION

最新推荐文章于 2023-10-11 19:14:10 发布

期待成功

最新推荐文章于 2023-10-11 19:14:10 发布

阅读量503

点赞数

分类专栏：自然语言处理笔记文章标签：机器阅读

本文链接：https://blog.csdn.net/u011150266/article/details/118399920

版权

QANet 是一种新型的机器阅读理解模型，摒弃了RNN，采用卷积和自注意力机制，提高了训练和推理速度。在SQuAD数据集上，QANet比RNN模型快3到13倍，推理速度提高4到9倍，同时保持了相当的准确性。通过反向翻译数据增强，QANet在测试集上实现了84.6的F1分数，优于之前最佳结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

单位：燕山大学
作者：王琴

摘要

当前使用端到端方法的机器阅读和问答 (Q&A) 模型主要是基于具有注意力的循环神经网络（RNN）。这种方法的确取得了很大的成功，但由于 RNN 的顺序性，这些模型在训练和推理方面通常都很慢。因此作者提出了一种新的问答架构，称为 QANet，它不需要循环网络，编码器完全由卷积和自注意力构成。其中，卷积对局部关系进行建模，使用自注意力对全局关系进行建模。在 SQuAD 数据集上，此模型的训练速度是RNN的 3倍到13 倍，其推理速度提高 4 到 9 倍，并同时能达到与RNN模型相当的准确性。这些优点能让更多的数据参与训练，因此，本文还加入了使用机器翻译模型反向翻译生成的数据。在 SQuAD 数据集上，使用数据增强训练的单一模型在测试集上的F1达到了84.6。这明显优于已发布的最佳 F1 分数 81.8。

1 介绍

在过去几年中，端到端模型取得了重大进展，在许多具有挑战性的数据集上显示出很好的结果。它们通常采用两个关键要素：(1) 一个循环模型来处理顺序输入， (2) 一个注意力组件来处理长期交互。BiDAF模型便是这两者的成功组合，并在 SQuAD 数据集上取得了很好的结果。但这些模型的一个缺点是，它们在训练和推理方面通常都很慢，尤其是对于长文本。这不仅导致实验的周转时间长，而且还限制了模型应用于更大的数据集。同时，缓慢的推理限制了机器理解系统在实时应用程序中的表现。

在本文中，为了使机器理解更快消除了这些模型的循环性，转而使用卷积和自注意力来构建编码器，分别对问题和上下文进行编码。然后通过标准的注意力机制学习上下文和问题之间的相互作用。在此编码器上再次编码一层，并在之后结合每个位置作为答案开始或结束概率的编码信息，作者称这种架构为 QANet，如图 1 所示。
在这里插入图片描述
本文模型设计的原因如下：卷积捕获文本的局部结构，而自注意力学习每对单词之间的全局关系。添加的context-query attention是一个用于为文本中的每个位置构建 query-aware 向量的模块，用于后续建模层。此架构的前馈特性显着加快了模型的运行速度。在对 SQuAD 数据集进行的实验中，QANet模型在训练中快了 3 到 13 倍，在推理中快了 4 到 9 倍。作为一个简单的比较，QANet可以在 3 小时的训练内达到与 BiDAF 模型相同的准确度（77.0 F1 分数），原来需要花费 15 小时。提速还允许使用更多的迭代来训练模型，以获得更好的结果。例如，如果训练了18 小时，它在开发集上的 F1 分数为 82.7，这比BiDAF 模型好得多，并且与发布的最佳结果相当。由于此模型速度很快，为了进一步改进模型，作者引入了数据增强技术来增强训练数据。该技术通过将原始句子从英语翻译成另一种语言，然后再翻译回英语得到新样本，这不仅增加了训练文本的数量，而且还使措辞多样化。