摘要 :
问题生成的目标是通过自然语言文本、结构数据库、知识库和图像等各种输入格式生成自然的、相关的问题.
在本文中,我们专注于从自然语言文本生成问题,近年来由于诸如问答系统的数据增强等广泛应用而引起了极大的兴趣。**三个角度对问题生成任务进行分类:输入文本类型,目标答案,生成的问题。**我们从不同维度深入研究现有模型,以分析其基本思想,主要设计原则和培训策略。我们通过基准任务比较这些模型,以获得对现有技术的实证理解。此外,我们讨论当前文献中缺少的内容以及有希望和期望的未来方向。
引言:
问题生成是自动从多样的输入,如数据库信息,深度语义信息,到原始信息中生成问题,最近,研究人员甚至扩大了来源范围,包括知识库和图像。这篇文章集中于自然语言文本问题生成,主要是从源文本和可选特定答案中生成类人问题。由于其巨大潜力,最近受到了广泛关注。例:作为阅读理解和问答的对偶问题,QG作为数据集增强减少人力;用于会话系统和聊天机器人,开启或者继续与人类的对话,获得更好的交互性和持久性;在教育领域作为智能导师系统重要组成部分。
传统QG方法重度依赖于启发式规则去将一个描述性文本转换为一个相关问题,现有的基于规则的方法可以大致分为三类:模板转换,语义转换和语法转换。通常包括两步:文本选择和问题构造,并且两步中分别考虑答案类型和问题类型。给定一段文本,首先通过语义或者语法的方法找到值得提问的主题。然后给定主题的文本,通过基于转换或者基于模板的方法将中间表示转换为自然语言问题。这种方法耗费大量人力,依赖专家知识和经验,且通用性和可扩展性差。
最近,QG领域深层神经网络广泛应用,提供了一个完全的数据驱动和端到端的可训练框架,其中内容选择和问题构建可以共同优化。与以前的基于规则的方法相比,神经QG模型在问题流畅性和多样性方面显示出巨大的优势。大多数神经网络方法将QG任务视为一个Seq2Seq问题,并且设计不同的编码器和解码器来提升问题质量。17年第一个将Seq2Seq用于QG的工作相比传统方法显示出了巨大优势,后来通过利用问题类型,答案位置特征-答案分离和自我注意机制,使基于RNN的Seq2Seq框架更加强大。此外,一些流行的框架,如预训练框架,变分自动编码器,基于图的框架和对抗性网络也因问题生成而备受关注。除了广泛使用的最大似然估计,一些工作采用多任务学习,强化学习,迁移学习和其他有效的训练策略来优化神经QG模型。
到目前为止,我们在QG模型上看到了令人兴奋的进展。关于QG的研讨会和教程引起了研究界的广泛兴趣。标准基准数据集,评估任务和开源工具包创建用于促进研究和严格比较。尽管取得了这些令人振奋的成果,关于自然语言文本中问题生成缺乏全面的分类法,无法更好地理解现有的QG任务。此外,对不同模型的设计原则和学习策略了解甚少,指导方针也很少。因此,现在是回顾一下,总结现状,为未来发展提供一些见解的正确时机。
与现有的审查相比,这篇综述的优点如下:首先,我们提供了一个更全面的QG任务分类,从输入上下文文本的类型、目标答案和生成的问题。然后这篇综述回顾现有的QG模型,分析它们的基本假设、主要设计原则和学习策略。这篇综述还通过有代表性的基准任务对这些模型进行比较,以获得实证的理解。这篇综述希望这些讨论能够帮助研究人员从以往的成功和失败中吸取教训,从而在未来开发出更好的QG模型。除了模型讨论外,这篇综述还介绍了QG的一些热门话题,包括多样化的问题生成、问题生成的前训练、具有较高认知水平的问题生成和信息获取的问题生成。其中一些主题很重要,但在这一领域尚未得到很好的解决,而另一些则是未来发展的非常有前途的方向。
问题生成的主要应用:
-
QA:经典QG可以被定义为QA的逆向任务,因此有潜力生成大规模的QA对来帮助QA系统。Duan等人提出,根据Community-QA网站收集的QA训练对,从给定的段落中生成问题。为了确保QG对QA有帮助,QA对生成任务被集成到端到端QA任务中。Fang等人将QG用于实时QA,首先离线生成大量的QA对,然后将输入问题与候选QA池进行匹配,以实时预测答案。
-
Machine Reading
Comprehensin(MRC):阅读并理解非结构化文章,然后回答有关文章的问题。大多数最先进的MRC模型依赖于大量人类注释的领域内数据来实现预期的性能。虽然存在大量大规模的MRC数据集,但收集这样高质量的数据集仍然是昂贵和耗时的。最近,QG被用来作为MRC的一种数据增强策略,它产生的问题切中要害。 -
Automatic
Conversation:创建一个自动人机对话的过程。为了增强对话的互动性和持久性,QG作为一种重要的沟通技能,帮助收集用户的反馈,扩展当前的对话话题或开始新的对话话题。具体来说,提出了会话问题生成(CQG)任务来引导qa风格的会话,该任务的目标是生成给定输入文本和会话历史的问题。例如Pan等人提出了一个有效的CQG框架,该框架配备了一个动态推理组件来生成会话问题,并通过强化学习机制进一步微调. -
Intelligent
Tutor:虽然人工生成的问题已经得到了广泛的应用,但与之相关的教育内容的增长速度超过了手工编写的问题。此外,手工编写大量高质量的问题是非常耗时的,因为需要人力领域专家进行大量的工作。因此,迫切需要找到从教育内容中自动生成问题的方法。
问题定义
- 给定一个上下文文本和一个可选的特定目标答案,QG旨在生成与输入相关的自然问题。之前的工作主要将QG任务划分为两类,即有答案和无答案。对于答案感知的QG任务,目标答案是已知的,生成的问题根据给定的上下文文本询问给定的答案。答案不可知的QG任务消除了在生成问题之前知道目标答案的约束。在诸如智能家教系统之类的实际应用中,通常需要人或机器根据自然语言文本生成问题,而没有明确的注释答案。在本文中,如图1所示,根据输入上下文文本、目标答案和生成的问题的类型,提出了QG任务的更全面的分类。根据输入文本分为文档级,句子级,段落级,关键字级;根据目标答案分为有答案无答案,其中有答案分为答案广度和抽象答案;根据生成的问题分为独立问题,顺序问题和多项选择题。
基准数据集
-
SQuAD*:维基百科众包QA数据集。
NewsQA:一个大规模的MRC数据集,包括超过100K个人工生成的QA对。根据一组来自CNN的超过1万篇新闻文章发布问题和答案,答案由相应文章的文本组成。 -
SearchQA:由超过140K个QA对组成,每对平均有49.6个MRC或QA片段。与SQuAD和NewsQA不同的是,他们从现有的文章开始,然后生成一个QA对,SearchQA从从J!归档并使用谷歌检索到的文本片段对其进行扩充。
-
HotpotQA:一个大规模的QA数据集,拥有113K个基于维基百科的QA对。在给出多个支持上下文文档的情况下,crowd-worker被明确地要求提出需要对所有文档进行推理的问题,并通过从上下文中提取一段文本来回答问题。
-
NQ:是一个QA数据集,包含307,373个训练示例、7,830个开发示例和7,842个测试示例。每个示例都包含一个谷歌查询(即问题)和一个相关的维基百科页面。
-
TriviaQA:是一个MRC数据集,包含超过650K的问答证据三元组。这些证据文件是从维基百科和Web上追溯收集的,而问题则来自于与证据文件无关的知识爱好者。
-
LearningQ:是一个具有挑战性的教育QG数据集,包含从主流在线学习平台收集的超过23万个文档问题对。在LearningQ中,有7K个教师设计的问题来评估所教授的知识概念,以及223K个学生生成的问题,以寻求对所教授概念的深入理解。
-
RACE:一个多选题MRC数据集,旨在测试作为外语学习英语的中国学生。RACE包含97,687个选择题和27,933篇由人类专家生成的文章。
-
等等
基于规则的方法
传统的方法通常依赖于手工设计的转换规则,将给定的文本片段转换为相应的问题。现有的基于规则的工作通常可以分为基于模板、基于语法和基于语义的方法。
- 基于模板的方法利用从训练集中提取的模板为测试集中对应的事实创建问题,这些问题适用于封闭域中的特定应用。
- 基于句法的方法首先确定给定文本的句法结构,然后应用句法转换规则和问题排布来获得问题。
- 基于语义的方法对文本进行语义分析以创建问题。
基于规则的QG方法更容易解释,并允许人们使用少量数据对模型行为进行更大的控制。然而,这些方法强烈地依赖于手工制作的转换和生成规则,导致生成的问题明显缺乏多样性,并且在覆盖不同领域时灵活性有限。
神经网络方法
随着数据驱动学习方法的兴起和大规模数据集的出现,基于神经网络的QG方法逐渐成为主流。如图2所示,神经QG模型主要分为Seq2Seq模型、预训练模型、变分自编码模型、基于图的模型和对抗网络模型。
- 传统Seq2Seq模型。多数神经QG模型遵循Seq2Seq框架,该框架首先通过编码器将输入上下文文本和目标答案(可选)转换为中间表示,然后使用解码器从中间表示生成问题。
- Pre-trained Seq2Seq模型。大规模的预训练语言模型大大提高了各种NLP任务的技术水平,可以对其进行微调以适应下游任务。在现有的预习方法中,BERT[50]是最突出的一种,一些作品利用BERT来提高生成题[28]的质量。然而,BERT是专门为语言理解任务设计的,直接将BERT应用于自然语言生成任务是不可行的。
- 图论模型。传统的Seq2Seq模型只捕获了上下文的表面线性结构,不能模拟句子之间的长距离关系。为了解决这个问题,最近的一些研究开始关注基于图的QG神经模型,这些模型的灵感来自于使用图建模高度结构化的对象(如实体关系和分子)[100,127]。这些方法充分利用了深度神经网络的表征能力和关系句图的结构建模能力,能够编码句子之间的长距离关系。如图8所示,大多数此类方法首先从输入上下文构造一个图,然后使用基于图的模型从所构造的文本图中有效地学习图嵌入。
- 生成模型。生成模型是学习生成数据的概率分布的有力方法。在QG任务中广泛采用的两种方法是变分自编码器(V AE)和生成对抗网络(GAN)。V AE的目标是使数据对数似然的下界最大化,GAN的目标是实现发生器和鉴别器之间的平衡。在这里,我们将介绍V AE和GAN在QG设置中的工作。
神经模型的训练策略
- 最大似然估计:最大似然估计(maximum likelihood estimation, MLE)的思想是找到使观测数据最有可能的模型参数值。通常采用对数似然函数的负数,一般称为负对数似然(NLL)函数。具体地说,给定一个训练语料库,其中包含一组上下文文本,一个可选的答案和一个问题qi, MLE损失函数通常是训练语料库相对于所有参数θ的概率:
MLE是上述神经QG模型中最常用的学习目标,其主要原因是:(1)MLE的损失函数是基于每个文本-答案-问题的三组独立计算的,这使其简单且易于扩展;(2)利用最小二乘法学习到的神经模型输出在实践中往往具有真正的意义和价值。然而,大多数标准MLE训练都会因为训练生成的差异而导致测试时间生成的增量扭曲[80]。具体来说,在训练过程中,训练QG模型预测下一个单词,这个词是基于从ground-truth数据分布中采样的前缀词。在测试时间生成过程中,QG模型根据从模型本身采样的前缀序列生成单词。由于在训练过程中暴露于真实数据,模型可能会偏向于只使用数据前缀,错误可能会沿着生成的序列累积。 - Reinforcement Learning
- Multi-task Learning
- Transfer Learning
模型比较
QG的评价方法大致可以分为两类,即以人为中心的评价指标和自动指标(不需要培训)。。具体来说,QG的性能通常通过以下三个自动指标来评估:(1)BLEU:测量一组参考句的平均n-gram精度,对过短的句子进行惩罚。BLEU-n是使用最多n个格来计算共出现次数的BLEU分数。(2) RougeL:使用基于最长公共子序列的统计方法,通过参考句中的单词在预测中出现的数量来衡量回忆。(3) METEOR:是一个面向回忆的指标,通过考虑同义词、词干和释义,计算代和引用之间的相似性。一般来说,自动度量标准不能与人类对问题的判断(例如,恰当性和一致性)相关联,因为它们只评估内容选择。因此,需要在未来的工作中提出改进的QG自动度量。
人的评价通常被视为评价的最重要形式。一方面,QG系统的最终目标是生成对人们有价值的问题。另一方面,自动度量仍然无法复制人类的决策。因此,许多QG作品都包含了某种形式的人对生成的问题的评价。
在各种人的评价方法中,诱发质量判断是最常见的。要求人工评估人员根据问题的语法性/流畅性和连贯性/一致性等标准来评估问题的质量。虽然人类的评估可以最好地了解QG模型的执行情况,但它仍然提出了一些挑战。首先,人的评估通常是昂贵和耗时的,尤其是对于需要广泛专业知识的高认知水平的问题。其次,不同的标签之间缺乏一致性,导致评价结果不可靠。
TRENDING TOPICS
- 多样问题生成:在实际的QG系统中,要想以更自然、更连贯的方式与用户进行良好的交互,就必须具备具有多种特征的特定个性的表现能力。多样性的QG可以表述为一个1到n的映射问题,其目的是针对同一上下文输入产生不同焦点的不同问题。在多元QG中,主要的挑战是动态地识别不同的值得提问的语境词,并根据话题或其他因素积极地控制问题的生成。传统的QG方法主要研究如何根据给定的上下文输入生成一个问题,即1对1映射问题。这导致他们不能生成多种多样的问题,也不能控制问题的生成,不能很好地满足用户的需求,提高用户的满意度。随着交互式搜索系统和教育系统的出现,多样化问题生成将成为这些场景中不可或缺的技术。从某种意义上说,多样化问题的生成模拟了人类的行为,因为人们经常根据自己的目的提出各种各样的问题(这可能会受到当前情绪、知识状态等各种潜在因素的影响)。然而,现有的作品主要考虑了输入文本和目标答案的效果,而忽略了人的主观因素,如情绪或知识状态,这是在实践中影响QG的一个主要因素。在不久的将来,在这一方向上还会有更多的研究工作。
- Pre-training Tailored for Question Generation
- 具有更高认知水平的问题生成:提出问题是一个对认知要求很高的过程,在这个过程中,回答问题需要不同程度的认知效果。Bloom的分类法提供了一个典型的框架,该框架试图对涉及提问的认知水平进行分类。总的来说,问题有两个主要的认知水平,即高认知水平和低认知水平的问题。高认知水平的问题是指需要复杂的应用、分析、评价或创造的问题,而低认知水平的问题是指阅读、理解和较低水平的应用。在许多应用中,特别是在教育目的中,有必要生成问题,从低层次回顾事实细节到高层次重新组织一个连贯的新整体。现有的QG研究通常侧重于生成与文本中某个事实相关的低认知水平的问题。提出更高认知水平的问题对于智能如何反映人类知识的深度和广度具有重要的价值,并将在未来的智能系统中有广泛的应用。在认知水平较高的问题生成过程中,需要更多的研究努力来选择相关信息,建立推理链模型。
- 信息搜索问题生成:会话式搜索和推荐等信息搜索系统近年来越来越受欢迎,其目的是通过多回合交互来满足用户复杂的信息需求。然而,通常情况下,用户不能在单个查询中充分表达他们的信息需求。因此,他们可能不得不扫描多个结果页面或重新制定他们的查询,这需要大量的努力,而且通常是不成功的。除了“用户提问,系统回应”的模式外,另一种解决方案是系统可以通过主动提问来阐明用户信息的意图。这可以帮助用户细化他们的信息需求,然后增加检索满意结果的机会。
CONCLUSION
对文本的提问对人类的成长和人工智能系统的改进都起着至关重要的作用。在本次调查中,我们总结了自然语言文本问题生成的研究现状,并对未来的发展提出了一些见解。根据输入上下文文本、输入答案和目标问题的类型,我们介绍了QG任务的更全面的分类。我们从模型体系结构和模型学习的不同维度回顾了现有的模型。对于模型架构分析,我们回顾了现有的模型,以理解它们的基本假设和主要设计原则,包括如何处理输入上下文文本,如何考虑答案特征,以及如何建模相关性关系。我们发现,预训练的语言生成模型对QG任务是有益的,有必要进一步探索适合QG的预训练目标。此外,应该更多地努力产生更高的认知问题,使用抽象答案作为输入或没有答案作为输入。在模型学习分析方面,我们回顾了神经QG方法所采用的主要训练策略。为了更好地了解QG模型在主要应用上的现状,我们调查了已发表的关于代表性基准任务的实证结果,进行了全面的比较。此外,我们还讨论了几个重要的或可能在未来有前景的趋势主题。我们希望这项调查能够帮助对这一方向感兴趣的研究人员,通过回顾过去的尝试,激发新的想法,并在不久的将来实现这一领域的重大突破。