Dynamic Memory Networks & DMN+

最新推荐文章于 2024-07-10 12:20:42 发布

长安居不易

最新推荐文章于 2024-07-10 12:20:42 发布

阅读量5k

点赞数 2

分类专栏：论文笔记文章标签： nlp deep-learning 深度学习问答系统

本文链接：https://blog.csdn.net/u011418174/article/details/76068968

版权

动态记忆网络(DMN)是一种用于自然语言处理的模型，适用于问答、情感分析和词性标注等问题。DMN通过输入模块、问题模块、情节记忆和回答模块来处理任务。DMN+是对DMN的改进，引入输入融合层和双向GRU，提高在bAbI任务和视觉问答中的性能。实验表明，多轮迭代对于性能提升至关重要。

摘要由CSDN通过智能技术生成

DMN出自论文Ask Me Anything: Dynamic Memory Networks for Natural Language Processing(2015-06)，这个模型用于Question Answering并且可以拓展到情感分析和词性标注。正如Introduce中所提到的，很多NLP问题都可以看作QA问题，比如机器翻译、命名实体标注、文本分类问题如情感分析、共指消解(coreference resolution)等。
DMN+出自论文Dynamic Memory Networks for Visual and Textual Question Answering(2016-03),它对DMN做了修改，称为DMN+，提高了在bAbI上的结果，并应用在了Visual Question Answer上

DMN

1.Introduction

如上文所说，很多NLP问题可以视为QA问题，作者给出了一个例子，同时包含QA, Sentiment Analysis和Part-of-speech tags:
这里写图片描述

所以作者提出了DMN来解决这三种问题。DMN的流程如下：

将输入和问题转换为内部表示
根据问题迭代地检索相关的facts
由DMN的memory模块根据facts和问题进行推理，给出相关的信息
由回答模块将相关信息转化成答案。

2.Dynamic Memory Networks

DMN的总体结构如图：
这里写图片描述

2.1 Input Module

输入模块通过GRU来编码句子。GRU的输入是word embedding vectors. 对于一个多句子的文本，在每个句子末尾加上一个分隔符(End-of-Sentence)，当输入是EOS，取此时的隐含层状态h表示当前这个句子，编码后的句子记作{ $s_i$ }

2.2 Question Module

对Question的编码也使用GRU, 不过参数与Input Module独立。question就是一个句子，所以question的编码 $q$ 就是最后一个隐含层状态

2.3 Episodic Memory

这个模块将Input Module的输出 ${s_t}$ 作为输入，通过attention机制生成对每一个输入fact的门限g，然后根据g计算出情节e，最后把e输入到GRU中生成episodic memory $m$ . 有时候输入一轮{s_t}不能很好的记住所有需要的fact，所以需要迭代多轮。如下图：
这里写图片描述
图中迭代了两轮, 最后生成了两个memory $m^1$ 和 $m^2$ 。

attention: 第i轮迭代，t时刻，输入为 $c_t$ , 上一轮的记忆为 $m^{i-1}$ , 问题为 $q$ , 则：

$g i t = G (c t, m i - 1, q)$ $g^i_t = G(c_t, m^{i-1}, q)$ 其中:
$G (c, m, q) = σ (W (2) t a n h (W (1) z (c, m, q) + b (1)$