任务描述:机器阅读理解无论是在工业界还是学术界都有着很高的研究价值,它能够让计算机帮助人类在大量文本中找到想要的答案,从而减轻人们对信息的获取的成本。也许,未来的搜索引擎将不仅仅是返回用户相关的链接和网页,而是通过对互联网上的海量资源进行阅读理解,直接得出答案返回给用户。本教程以多文档阅读理解任务为例介绍,展示如何利用MRC模型从海量文本信息中获得人们想要的答案。
数据集:百度在2017年发布了大规模的中文MRC数据集:DuReader。相比以前的MRC数据集,DuReader有以下特点:
所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。
数据集中包含大量的之前很少研究的是非和观点类的样本。