记忆网络之Hierarchical Memory Networks(架构分层)
这是中科院去年发表的一篇论文“Hierarchical Memory Networks for Answer Selection on Unknown Words”。其仿真代码作者已经开源,是用Lasagne实现的。虽然和上一篇一样都叫做“Hierarchical Memory Networks”,但是却千差万别。上一篇主要是将memory以分层结构进行存储和搜索,以实现大规模记忆时可以加快计算速度。而本篇则是从模型结构上面进行分层构建,从sentence-level和word-level两个层面进行训练以达到准确度的提升和对unknown words的识别。
作者认为End-to-End MemNN仅从句子层面对输入进行编码会丢失一些细节信息,尤其是当答案是稀有词或者从未出现过的词时(答案肯定会在输入文本中,只不过作者说大部分工作中会把稀有词直接当做unknown对待。可是那是因为别人的答案并不是稀有词的前提下啊。而且究其根源最终的目标不过是从一段材料中找到一个答案而已。反正感觉有些牵强吧==)。所以作者提出HMN模型来解决这种问题,该模型首先使用sentence-level的memory作为推理模块找到输入memory中与问题的相关程度,然后使用k-max pooling选择出最相关的k个句子。接下来对所有句子中每个单词使用Bi-GRU进行word-level的建模,得到word-level的me