Attention-over-Attention Neural Networks for RC

本文分享的文章是arxiv前天刚刚新鲜出炉的paper,来自哈工大讯飞联合实验室。前不久,他们构建了一个大型阅读理解语料,今天也发布出来了。

Cloze-style Reading Comprehension这个领域竞争太过激烈了,半年时间把benchmark刷了一遍又一遍,今天的这篇paper又一次刷新了记录。如果对这个领域不太熟悉的话,可以读这篇教机器学习阅读

本文的模型被称作Attention over Attention(AoA),和之前的工作不同,不仅仅考虑query-to-document attention,而且考虑了document-to-query attention。模型架构示意图如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

Contextual Embedding 将query和document都embedding化,用Bi-GRU将query和document分别encode,将两个方向的hidden state拼接起来作为该词的state,此时document和query可以分别用一个Dxd和Qxd的矩阵来表示,这里D是document的词数,Q是query的词数,d是embedding的维度。

Pair-wise Matching Score

gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAA

这一步是本质上就是对两个矩阵做矩阵乘法,得到所谓的Matching Score矩阵M,这里的M矩阵的维度是DxQ,矩阵中的每个元素表示对应document和query中的词之间的matching score。

Individual Attentions 对M矩阵中的每一列做softmax归一化,得到所谓的query-to-document attention,即给定一个query词,对document中每个词的attention,本文用下式进行表示:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

Attention-over-Attention 前三个步骤都是很多模型采用的通用做法,这一步是本文的亮点。首先,第三步是对M矩阵的每一列做了softmax归一化,这里对M矩阵的每一行做softmax归一化,即得到所谓的document-to-query attention,用下式来表示:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

然后,将document-to-query attention作平均得到最终的query-level attention,如下式:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

最后,用每个query-to-document attention和刚刚得到的query-level attention做点乘,得到document中每个词的score。

Final Predictions 将相同词的score合并,得到每个词的score,如下式:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

从而得到最终的答案。

实验部分用了英文语料CNN和CBT,在没用pre-trained embedding情况下,单模型得到了state-of-the-art结果。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

本文模型最大的特点就是不仅仅考虑query到document的attention,而且考虑了document到query的attention,即所谓的attention over attention,在Cloze-style阅读理解任务中取得了更好的结果。同时,作者在未来的工作中,准备将该模型拓展到其他任务中。

attention是一个非常好的机制,将很多任务的benchmark都提高到了很高的水平,是一个革命性的模型。围绕attention的变种做工作,提出各种各样的attention,虽然可以刷新各种任务,但终究不再能够将研究水平提升一个level,需要一个新的机制、新的思想来推动nlp的发展。


来源:paperweekly


原文链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值