论文笔记 | Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions

简介

Jierui Li, Wang Lei 和 Dongxiang Zhang团队发表在ACL19上的工作。主要使用不同功能的Multi-Head Attention来获取不同类型对象的关系。

受到multi-head attention工作的启发,作者设计了四种不同的attention机制:

  • Global attention:以整个句子的表示作为query, key和value,以获取全局信息,
  • Quantity-related attention:一个句子内部的操作数和其上下文之间的attention。
  • Quantity-pair attention:两个操作数之间的attention以及一个操作数和一个未知数之间的attention。
  • Question-related attention:获取问题和操作数之间的关系。【具体的输入设计,我认为和quantity-pair attention中的设计有些重复】

系统的框架图如下,整体是一个seq2seq架构。操作步骤为:

  • 对于一个问题文本,先通过bi-LSTM得到每个词基于上下文的向量表示。
  • 得到向量表示后,根据不同attention的要求不同,选择适合的向量输入各个attention。得到各自的输出。
  • 四个不同attention得到的输出进行拼接,得到encoder部分的输出。
  • 在decoder中,使用LSTM+attention,得到最终的表达式。
    在这里插入图片描述

分析

Strong Points:
  • 相比直接将问题文本输入seq2seq,输出表达式的算法,利用attention的方法,从一定程度上考虑了操作数之间的关系,让计算更加合理。
  • 对于两个操作数之间的关系,能想到利用attention的方法,对其上下文表示计算相似度。
  • global attention 和 quantity-related attention以及question-related attention都比DNS提升8%以上。
  • 开源代码code
Weak Points:
  • 在实验部分看到,quantity-pair attention的提升相比其他三个要少一些。但其实两个操作数的关系对于解题来说非常重要。所以,quantity-pair attention的设计需要改进。
  • 文中使用逗号和句号分隔句子,每一个包含操作数的句子表示成向量,作为该操作数基于上下文的向量表示。这里假设每个句子中只有一个操作数,不甚合理。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值