本文发表于2018年AAAI,作者为Chuanqi Tan, Furu Wei, Nan Yang...等人,文章提出了一个新的针对MS-MARCO dataset的模型S-NET,并且在该数据集上取得了state of art的成绩。
本文的创新点在于:
- 作者提出extraction-then-synthesis框架从抽取的结果中合成答案
- 使用篇章排序的手段提高了从多篇文章中获取答案的准确性
- 使用生成模型来生成答案,更能契合数据集所提供的数据
摘要部分
作者提出一个针对于MS-MARCO的阅读理解模型,区别于SQuAD数据集,MS-MARCO数据集并没有将答案的范围在文章中标明,并且还存在答案中的词汇与原文不同的情况,作者提出了一个抽取-合成模型来形成最终的答案。特别的,答案抽取模型首先被用来从文章中预测最有可能的范围,作为答案合成模型的一个额外的特征来进一步形成最终的答案。作者使用了最优的阅读理解模型作为答案抽取模型,并且将文章排序作为一个额外的子任务来从多篇文章中抽取答案。答案生成模型基于seq2seq结构,最终取得该数据集上的最好成绩。
介绍部分
介绍部分首先对数据集进行对比,略,主要就是一个有答案范围一个没有,一个答案是抽取的一个答案是生成的,一个是单篇文章一个是10篇文章中的10个段落,现有针对于MS-MARCO数据集的方法主要继承与SQuAD数据集的方法,预测答案的开始位置和结束位置,依据MS-MARCO的描述,答案可能从多个范围生成(因此不能做10选1来抽取答案)答案呢,词汇有可能来源于文章,也有可能在文章和问题中压根没有出现(因此不能单纯使用抽取式的方法,需要生成式)。
在这篇文章中,作者提出了一个抽取-生成模型,如下图所示。一个evidence extraction 事实抽取模型用从一篇文章中预测最重要的子范围,可以理解为最重要的句子。然后生成模型使用抽取出来的信息加之文章与问题生成一个答案(注意,文章中没有提到使用问题的类型作为辅助)。
其中抽取模型使用state-of-the-art attention based neural networks来预测(evidence)关键信息的开始和结束,作者同时提出了incorporating passage ranking合并段落(文章)排序作为一个辅助任务来提高关键信息抽取的效率,整个过程是一个多任务学习,使用RNN将单词序列化,并且使用注意力机制来构建问题与篇章级别的表示,之后使用pointer network(Vinyals, Fortunato, and Jaitly 2015)来预测答案的开始和结束,此外使用attention pooling来汇总每篇文章词级别的信息,使用篇章级表示来给候选篇章排序。生成模型依据关键信息(evidence)使用seq2seq来生成答案,问题和篇章使用双向RNN编码,其中关键信息的开始和结束也作为特征输入,之后使用attention decoder来生成最终答案。评价指标使用ROUGH-L和BLEU-1。
相关工作
捡几个觉得有用的列举一下吧
- Wang and Jiang (2016b) combine match-LSTM and pointer networks to produce the boundary of the answer
- Xiong,Zhong, and Socher (2016) and Seo et al. (2016) employ variant co-attention mechanism to match the question and passage mutuall
- Xiong, Zhong, and Socher (2016) propose a dynamic pointer network