发表于ACL2018
在Reading Comprehension任务上,往往会采用多步推理的机制,但是之前的工作或者具体规定了推理步数或者通过强化学习等方式动态得到。但这些方法都是依赖于某一步的结果,本文提出SAN网络,通过综合利用每一步的结果得出最后答案,使得模型不依赖于某一步的结果。
模型:
底层模型与以往模型类似,有部分改进,最终得到对question和paragraph的表征。利用working memory迭代多步,每次预测一个答案。
在输出层,利用dropout层对多步的输出随机采样再平均,计算loss;预测时对所有层的输出取平均。
notes:
表征部分用了很多结构,例如maxout网络,self-attended layer等