2021年山东大学软件学院创新项目实训QG研发团队工作日志（一）

本文链接：https://blog.csdn.net/weixin_43445661/article/details/114406812

本文介绍了问题生成技术的基本概念及其在教育、问答系统等领域的应用前景。以DuReader数据集为例，详细阐述了如何利用该技术生成高质量问题的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 项目背景

问题生成（Question Generation，QG） 任务是指根据给定的文本段落和答案自动生成对应问题，要求能够对输入材料深度理解并能够推断出相关上下文语境，生成语法语义正确的问题。
问题生成在现实中有很广泛的应用前景。
在教育领域，以长篇段落信息为背景生成相关问题能够帮助考察学生的阅读理解能力并提高学生的自主学习能力，同时还能辅助教师教学，减轻教学压力。
在问答系统领域，在网上与大量基于事实的文章、新闻、电子文学作品等，但缺少与之匹配的问题，因而不能应用于检索式问答系统中，问题生成能够生成大规模的数据集，减少人工标注的成本。
此外，问题生成还可以作为聊天机器人的组件，以询问问题开启对话或者请求用户反馈，增强人机交互的友好性和持久性。
综上所述，生成高质量的问题可以推动自然语言处理领域的研究，还可以促进教育等领域的发展，具有非常重要的现实意义。

2. 项目介绍

本项目采用百度的DuReader公开数据集，基于答案以及答案相关的上下文来生成问题。DuReader是用于机器阅读理解（MRC）和问答（QA）的大规模现实世界中文数据集。数据集中的所有问题均来自真实的匿名用户查询。使用百度搜索引擎从网络和百度知道中提取得出答案的证据文档，问题的答案是人为产生的。DuReader 2.0版包含30万多个问题，140万个证据文档和660K个人工生成的答案，可以用于训练或评估MRC模型和系统。
给定文章X=(x_1,…,x_n)和目标答案A作为输入，NQG模型的目标为生成与答案最相关的问题Y ̅=(y_1,…,y_n)，如式(1)所示。
在这里插入图片描述