1. 文章亮点
- 提出了一个新 input 模块,使用 sentence reader 和 input fusion layer 两级编码器,信息在句子间可以流动
- memory 中,使用 facts的全局知识计算现有GRU的公式中的 attention 门
2. 背景介绍
- memory network 能够推理出自然语言或三元组(主题,关系,对象)的 facts
- Attention mechnism 在机器翻译和图像模型取得了很好的进展
- (DMN)是一个具有 memory 和 Attention 的神经网络模型,在QA、情感分析和词性标记有很好的结果
3. 模型介绍
3.1 Input Module
(1) sentence reader : 将单词编码成句子映射 (positional encoder)
word tokens --> sentence encoding :
(2) input fusion layer : 句子间信息的交互 (bi-directional GRU)
GRU的实现
3.2 Episodic Memory Module
(1) Attention gate 的计算
(2) Attention Mechanism : 采用 Attention based GRU --> 我们使用了基于 Attention 的GRU的最终隐藏状态作为,由于更新
(3) Episode Memory Updates
实验结果
(1) 在bAbI-10k数据集上测试各种模型架构的错误率
- ODMN 最原始的DMN模型
- DMN2 输入模型采用 input fusion layer
- DMN3 用 attention based GRU 代替 soft attention
- DMN+ 用唯一的权重和带有ReLU激活的线性层更新
对比得到结论:
- input fusion layer 改善了 distant facts 之间的交互
- 在DMN3中添加 attention GRU 可以提供复杂的位置和顺序信息
(2) 在bAbI English 10k数据集中测试任务上各种模型架构的错误率
- end-to-end memory network 有 explicit memory 和 recurrent attention mechanism 。
- positional encoding 做 input module
- RNN权重 处理 episode module
- ReLU non-linearity 处理 memory update
- neural reasoner framework
- deep architecture 做逻辑推理
- interaction-pooling 处理输入间的交互