用神经网络解决阅读理解问题是当下的NLP任务的重点之一。本文对机器阅读理解任务中的数据集进行了概括介绍。
机器阅读理解中的数据集
机器阅读理解的一般任务定义是,给机器一篇或多篇文章(Passage,P),机器需要对若干问题(Question,Q)进行回答(Answer,A)。用一个式子总结就是:
f ( P , Q ) = A f(P,Q)=A f(P,Q)=A
这里的 f 就是阅读理解的模型。模型的发展离不开数据集,数据集的不断进步直接地推动了该领域的研究进展。根据问题(Q)和回答(A)的形式,机器阅读理解中的数据集可以分为最早的完型填空形式(cloze-style)、多项选择(multi-choiceÿ