1. 项目背景
问题生成(Question Generation,QG) 任务是指根据给定的文本段落和答案自动生成对应问题,要求能够对输入材料深度理解并能够推断出相关上下文语境,生成语法语义正确的问题。
问题生成在现实中有很广泛的应用前景。
在教育领域,以长篇段落信息为背景生成相关问题能够帮助考察学生的阅读理解能力并提高学生的自主学习能力,同时还能辅助教师教学,减轻教学压力。
在问答系统领域,在网上与大量基于事实的文章、新闻、电子文学作品等,但缺少与之匹配的问题,因而不能应用于检索式问答系统中,问题生成能够生成大规模的数据集,减少人工标注的成本。
此外,问题生成还可以作为聊天机器人的组件,以询问问题开启对话或者请求用户反馈,增强人机交互的友好性和持久性。
综上所述,生成高质量的问题可以推动自然语言处理领域的研究,还可以促进教育等领域的发展,具有非常重要的现实意义。
2. 项目介绍
本项目采用百度的DuReader公开数据集,基于答案以及答案相关的上下文来生成问题。DuReader是用于机器阅读理解(MRC)和问答(QA)的大规模现实世界中文数据集。 数据集中的所有问题均来自真实的匿名用户查询。使用百度搜索引擎从网络和百度知道中提取得出答案的证据文档,问题的答案是人为产生的。DuReader 2.0版包含30万多个问题,140万个证据文档和660K个人工生成的答案,可以用于训练或评估MRC模型和系统。
给定文章X=(x_1,…,x_n)和目标答案A作为输入,NQG模型的目标为生成与答案最相关的问题Y ̅=(y_1,…,y_n),如式(1)所示。
首先对数据集中的目标答案进行精确编码,并在长文本背景中识别出和目标答案相关的信息,记忆和目标答案有强关联度的文本信息作为最后生成问题的背景信息。使机器能够学习到大量的知识,知识多是指目标答案所在的段落和文档中与目标答案相关的文本。
3. 前期准备
团队成员通过文献资料对问题生成的相关技术和方法有了比较全面的了解,并且经过多次讨论明确了项目目标、项目内容和下一步的实施计划。