论文笔记 | Modeling Intra-Relation in Math Word Problems with Different Functional Multi-Head Attentions

最新推荐文章于 2021-11-28 16:29:00 发布

ttliu_kiwi

最新推荐文章于 2021-11-28 16:29:00 发布

阅读量1.1k

点赞数

分类专栏：学习总结深度学习 Embedding

本文链接：https://blog.csdn.net/ting0922/article/details/104505222

版权

40 篇文章 0 订阅

订阅专栏

9 篇文章 1 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

简介

Jierui Li, Wang Lei 和 Dongxiang Zhang团队发表在ACL19上的工作。主要使用不同功能的Multi-Head Attention来获取不同类型对象的关系。

受到multi-head attention工作的启发，作者设计了四种不同的attention机制：

Global attention：以整个句子的表示作为query, key和value，以获取全局信息，
Quantity-related attention：一个句子内部的操作数和其上下文之间的attention。
Quantity-pair attention：两个操作数之间的attention以及一个操作数和一个未知数之间的attention。
Question-related attention：获取问题和操作数之间的关系。【具体的输入设计，我认为和quantity-pair attention中的设计有些重复】

系统的框架图如下，整体是一个seq2seq架构。操作步骤为：

相比直接将问题文本输入seq2seq，输出表达式的算法，利用attention的方法，从一定程度上考虑了操作数之间的关系，让计算更加合理。
对于两个操作数之间的关系，能想到利用attention的方法，对其上下文表示计算相似度。
global attention 和 quantity-related attention以及question-related attention都比DNS提升8%以上。
开源代码code

在实验部分看到，quantity-pair attention的提升相比其他三个要少一些。但其实两个操作数的关系对于解题来说非常重要。所以，quantity-pair attention的设计需要改进。
文中使用逗号和句号分隔句子，每一个包含操作数的句子表示成向量，作为该操作数基于上下文的向量表示。这里假设每个句子中只有一个操作数，不甚合理。

关注