Key-Value Memory Networks for Directly Reading Documents. EMNLP, 2016.
解决的问题
从文档中直接提取问题答案
主要的贡献
WIKIMOVIES 一个电影领域的QA数据集 同时也是检测QA系统性能的分析工具 包含100k个问题
使用的方法
在问答系统中加入知识库KB完成QA任务,虽然有效但存在很多限制,比如不完备、领域局限。Freebase是一个大规模KB,将信息有结构地进行了组建。从文本中检索答案比从数据库中检索困难得多,因为答案可以被任意表示,没有结构化,在多个文档中。本文建立KV-MemNN结构,通过一种key-value的结构存储facts,其中key用于定位问题,对应的value作为答案被返回。这个model可以使用反向传播算法中的随机梯度下降法训练。
模型结构
- 依赖于2015年Weston的End-to-End Memory Networks。
- 1.key hashing
使用问题从非常大的key-value对中筛选出一个子集,选出N个key-value对,每一个key都与问题有至少一个单词相同。其他筛选机制可以参考2008年Manning的文章。 - 2.key addressing
比较每一个问题和对应key计算相关概率p: