作者:Sjw
时间:2021年4月30日
今天要分享的是来自ACL2020的一篇论文,作者是:Hongyu Gong, Yelong Shen, Dian Yu,Jianshu Chen, Dong Yu
目录
1.解决的问题
现在的机器阅读理解模型大多数都是使用预训练模型(例如BERT)对文档和问题的联合上下文信息进行编码。但是这些基于transformer架构的模型只能采用固定长度(例如512,文本长度不足会进行填充)的文本作为输入。 需要处理更长的文本输入时,以前的方法通常将它们分成等距的段(比如通过设置滑窗大小为128),并根据每个段独立地预测答案,而不考虑其他段的信息。就像下图这种情况:
设滑窗长度为128,最大句长为512,那么长度为700的本文经过处理后会被切分为3段,第一段为0-512,第二段为128-640,第三段为256-700。
这种情况下,会产生需要预测的答案处在被分割的边界位置,导致丢失用于推理答案的上下文信息,而且片段与片段之间缺乏交互,又丢失了一部分信息。
为了说明上下文信息对答案预测的影响,作者还展示了答案片段的中心位置与文章的中心位置距离对F1值的影响:
可以看到,随着答案片段的中心位置与文章的中心位置的距离增大,F1值有着明显的下降。
2.方法
于是乎,作者就提出了一种更加科学的长文本分段方法,也就是本文要讲的: RCM(recurrent chunking mechanisms)通过强化学习的方式学习分段长度