自然语言处理下的多样化问题生成研究-及教你如何撰写论文

目前本人主要的研究领域是自然语言处理，自然语言处理被誉为人工智能的“掌上明珠”。在计算机发展如此快速的时代，大量的网上文字资源需要发掘有用的信息，因此，自然语言处理被认为是一项重要的技术。自然语言处理需要学习的内容很多，其中包括文本分类，情感分析，命名实体识别，文本生成，摘要生成，机器翻译等等，本次针对问题生成领域下的多样化学习的一篇论文进行讲解。

其次，多样化的研究在自然语言处理领域是一项极为有意义的研究，虽然处于大语言模型时代，但是针对文本的多样性研究依旧是一项难题。

一.题目

《Diversify Question Generation with Continuous Content Selectors and Question Type Modeling》
原始论文的链接
时间：2020年发表于EMNLP顶会（CCF B类会议）

二.摘要

基于相关上下文和答案生成问题是一项具有挑战性的任务。最近的工作主要关注单个生成问题的质量。然而，问题生成实际上是一个一对多的问题，因为可以提出不同语境和不同表达方式的问题。本文从这两个方面探讨了问题生成的多样性并提出了方法。具体来说，将上下文焦点与内容选择器联系起来，内容选择器通过条件变分自动编码器(CVAE)技术由一个连续的潜在变量建模。在CVAE的实现中，采用了多模态优先分发，以允许更多样化的内容选择器。为了考虑不同的表达方式，对问题类型进行了显式建模，并进一步提出了一种多样性促进算法。在公共数据集上的实验结果表明，本文提出的方法可以显著提高生成问题的多样性，特别是从使用不同问题类型的角度来看。

本文摘要的总结是：问题生成的研究目前主要聚焦于单一问题生成，实际上，问题生成的研究应该是从不同的角度提出多个问题，这是目前所需要的。因此，本文从两个方面讨论问题生成的多样化。
首先通过抽取上下文的核心内容（聚焦于答案信息）与内容选择器联系起来，其中内容选择器通过条件变分自动编码器（CVAE）技术将选择一段上下文的内容作为连续的潜在变量进行建模。然后再CVAE的基础上，采用多模态优先分发，允许更多样化的内容选择器。最后，为了考虑多种表达方式，对问题的类型进行了显示的建模。并在多种数据集验证了所提方法的好处。（此处，基本上是所有论文都会说的，阅读论文时，可以忽略）

一般在写摘要时，中文就是由五-七句组成，英文亦是如此。
第一句简单论述该研究是什么？（有些中文核心可能会直接跳过这一句，直入主题）
第二句-第三句开始说明这一研究存在的问题是什么？
第三句和第五句开始说自己提出的什么模型，该模型是如何做的？
第六句和第七句说自己提出的方法在多种实验结果上具有什么优势，什么数据结果好了，具有很大的优势等等这样的类似的话语。

三.引言

第一段：作为大背景介绍进行引入，再撰写论文时，基本上都会有一段背景知识的引入。本段主要说明问题生成的应用领域。

作为问答系统的逆向任务，问题生成(QG)旨在从给定的答案及其相关上下文中生成问题。这项任务具有教育目的的潜在价值，为阅读理解材料生成问题。它也可以作为聊天机器人的组成部分，用于评估或改善心理健康。此外，QG可用于扩展问答系统的问答对。

第二段和第三段
第二段和第三段开始说前人研究存在哪些问题，主要是为了引入本文想要提出的模型，想要使用什么方法解决这项问题。（有的论文只有一段，看自己的情况书写）

第二段：传统的QG方法主要使用严格的启发式规则将句子转换成相关的问题。然而，这些方法严重依赖于手工制作的特性不容易推广。近年来，神经技术被应用于这一任务，并取得了重大进展。这些方法大多遵循一对一的编码器-解码器范式，专注于提高单个生成问题的质量。

在这里插入图片描述

第三段：然而，给定一个答案及其相关的上下文，就有可能提出多个问题，这些问题侧重于不同的上下文和不同的表达方式。图1显示了可以从给定的源上下文中生成的一些不同的问题。多样性是QG固有的特点，有可能提高这项任务的价值。然而，现有方法没有充分探索这种多样性。姚等和范等注意到了这一问题，并用潜变量模型对品种进行了建模。然而，引入的潜在变量被视为一个整体属性，其含义是不透明的，与多样性的起源关系不大。最近，Cho等人提出了一种用于生成的混合内容选择模型，其多样性由固定数量的选择器决定。然而，离散性在很大程度上限制了它的多样性。

第四段：开始基于上述出现的一些问题，提出了某些模型，该模型如何做的（写论文的时候主要是提炼出你提出模型的优势在哪里）。然后开始写出自己在论文中的贡献，当然可以忽略，但是在一些顶级期刊和会议上基本会有的。写SCI论文的小伙伴可以参考。

在本文中，使用更灵活的连续潜变量进行内容选择，以处理上下文中的不同焦点。此外，问题类型明确纳入考虑不同的表达方式。有了这些组件，问题可以分三步生成。首先，以连续潜变量形式的内容选择器根据源上下文进行采样。其次，基于上下文以及内容选择器来预测问题类型。
最后，问题的内容由上述语境焦点和表达方式信息生成。考虑到内容选择器和题型的多样性，可以保证生成问题的多样性。
总体而言，本文的主要贡献如下:
(1) 明确考虑内容选择过程的QG和模型内容选择器作为一个连续的潜在变量的不同重点的背景。利用CVAE，并且对于更多样的选择器采用多模态先验技术。
(2) 通过整合问题类型模型来考虑各种表达方式。进一步提出了一种多样性促进算法，该算法考虑了不同问题类型在不同代之间的使用。
(3) 在公共数据集SQuAD和NewsQA上进行实验，其结果表明，与以前的方法相比，生成质量和多样性之间有更好的折衷。进一步的分析证明了我们提出的组件的有效性。

四.相关工作

这一部分一般是为了讲述本文所研究的相关工作，有的论文并没有这一部分，会将这一部分融入到引言部分进行书写。

近年来，自动问题生成引起了自然语言生成界越来越多的关注，这反映在新发布的数据集上和精密技术。

传统方法主要是基于规则的，它们首先将源信息转换为句法表示，然后使用模板生成相关问题。这些方法很大程度上依赖于严格的启发式规则，不容易推广。

与基于规则的方法相比，神经网络具有从标记数据中学习隐含模式的潜力。因此，在问题生成中变得更加普遍。杜等和周等遵循序列到序列的范式，结合丰富的特征和注意机制，取得了令人满意的结果。孙等和周等结合以答案为中心的信息来提高答案和问题之间的相关性。刘等和陈等引入图网络来估计源语境中的重要内容。

大多数先前的工作将问题生成视为一对一的问题，并且集中于提高单个生成问题的质量。一些工作注意到了QG固有的多样性，并提出了考虑这一特点的方法。Yao等人使用一个潜在变量对问题中的整体属性进行建模。在一些相关的工作中也可以发现类似的想法。然而，整体特征的意义只是模糊不清，不能与多样性紧密相连。

最近，Cho等人提出了一个用于生成的混合内容选择模型。多样性由固定数量的内容选择器决定。与他们的工作不同，我们在一个连续的空间中对内容选择器的潜在变量进行建模，这有可能捕获内容选择中固有的更多变化。

除了上述相关工作之外，插入到通用编码器-解码器框架中的其他技术也可以用于促进分集。然而，这些方法没有充分考虑问题生成的具体特征。

五.方法

该部分主要讲解本文提出的方法。在会议中只需要说明自己的所提核心的方法，不需要过多说明一些基础框架。

首先给出了模型的总体架构图。共分为三个阶段。
![多样化问题生成模型的框架，可以分解为三个阶段。](https://img-blog.csdnimg.cn/ad08dee220e94ecba6553de47a1f9938.png

问题生成旨在对给定答案a及其上下文c的问题q的概率进行建模，其可以被组合为源信息x ={c,a}。
为了使生成的问题多样化，引入了一个连续的多维潜在变量z用于内容选择，并显式建模问题类型以处理表达方式。生成可以分解为三个阶段。
首先，根据输入x对内容选择器z进行采样，这用于指示应该关注源信息的哪些部分。其次，考虑特定内容选择器z和输入x来预测问题类型qt。最后，利用选择的内容和预测的问题类型来生成相关问题内容qc。最后一个问题q可以合成为(qt，qc)。因式分解可以用公式表示如下:

与离散变量相比，选择连续的潜在变量作为内容选择器会导致更多的变化。采用CVAE是为了使训练更易处理。那么目标函数就是logpθ(q|x)的证据下界(ELBO):

其中pφ(z|x，q)被结合以近似后验分布pθ(z|x，q)。

L(θ，φ；x，q)可以使用蒙特卡罗估计来近似，并且可以利用重新参数化技巧来进行学习关于pφ(z|x，q)和pθ(z|x):

$L_~$ 中的前两个分量表示重构误差，该误差迫使采样内容选择器提供关于关注什么的信息。最后两个部分构成了一种正则化，它驱动后验匹配前验。

在下面的小节中，将详细阐述每个阶段的细节。

5.1 内容选择器

在框架中，内容选择器被建模为一个连续的多维潜在变量z，用于关注相关的上下文信息。遵循CVAE，识别网络pφ(z|x，q)被定义为近似真实的后验分布。如pφ(z|x，q)所示，它以源信息x以及目标问题q为条件。至于源信息，将上下文c分解为单词序列{xi} n i=1。在周等人(2017)的基础上，利用词汇特征来丰富单词嵌入，如x = {xi} n i=1。然后，使用双向递归神经网络(BiRNN)来产生隐藏状态序列{hi} n i=1。最后，浓缩的源信息s通过自注意力机制操作进行聚合得到s:

假设目标问题有内容词{yt} m t=1。然后，可以用与等式4类似的过程来计算目标信息t。为了模拟潜在变量z的连续属性，我们假设pφ(z|x，q)遵循具有对角协方差矩阵的多元高斯分布，因此识别网络可以计算为:

给定方程3，还需要定义潜变量z的先验分布pθ(z|x)。为了便于计算，传统方法通常将先验表示为另一种高斯分布。为了增加模型的多样性，防止变分后验概率过度正则化，采用了多峰先验分布。高斯混合分布具有拟合更多样的多维数据的潜力，其适合于放大具有不同焦点的内容选择器之间的差异。采用VampPrior的多模态先验技术，而不是将变换矩阵引入每个模式的均值和方差，其中只需要边际加性参数，并且可以减轻过拟合。更具体地，多模态先验分布可以用公式表示如下:

给定上述识别和先验网络，可以使用重新参数化技巧从pφ(z|x，q)(训练)或pθ(z|x)(测试)获得z的样本。利用采样的潜在变量z，可以计算在上下文c中关注什么:

其中[；]表示矢量拼接。E[qt ]表示问题类型qt的单词嵌入，这将在3.2小节中详细说明。为了简单起见，用o来表示{oi} n i=1。

5.2 问题类型预测器

给定源信息s和采样内容选择器z，问题类型预测器产生概率分布，以指示不同问题类型查询所选内容的可能性。本文根据一般疑问句中常用的疑问词对疑问句类型进行了分类。具体来说，他们被分为8种类型-what, who, how, when,which, where, why and other .
组合上下文信息s和选择器表示z作为输入。两个完全连接的层后跟一个softmax层，用于估计相关问题的最终问题类型分布。该损失对应于等式3中的第一项:

在给定问题类型预测器的情况下，提出了一种在推理阶段促进多样性的算法。在算法1中，利用衰减来明确控制多次生成的多样性程度。具体来说，给定多个样本及其问题类型分布作为一个整体，迭代地选取最高概率，并将其类型分配给相应的样本。那么其他样本选择相同题型的概率会受到衰减的约束。因此，更有可能将不同的类型分配给其余部分，从而可以明显提高问题类型的多样性程度。

5.3 Controlled Generator

利用集中编码器和解码器来使生成过程知道所选择的内容和预测的问题类型。

5.3.1 Focused Encoder

选择的内容可以被视为线索指示特征，它为每个词分配一个二进制值以表示其重要性。为了稳定训练，使用该指标特征的软版本，其权重由等式7中的o给出。在推断阶段，通过设置一个阈值来离散这个指标。具体来说，该特征被转换成如下的另一种嵌入:

其中E1和E0对应于该线索指示器的两个值的可训练嵌入。I(oi)表示内容选择概率oi的离散性。这种嵌入被附加到3.1小节中引入的“嵌入xi”一词上。产生的嵌入表示为{ $x$ $^{'}_{i}$ } $^{n}_{i=1}$
然后利用另一个双RNN获得聚焦的上下文表征作为 $\mathbf{h}$ $^{'}$ ={ $h$ $^{'}_{i}$ } $^{n}_{i=1}$ .

5.3.2 Focused Encoder

假设上下文表征h 0、内容选择指示符o和问题类型qt应该组合生成相关问题内容qc = {yt} m t=1，它是一个问题除其类型以外的剩余部分。

遵循传统范式，采用单向门控递归单元(GRU)来形成解码器。它将问题类型qt作为初始输入词y0，并参考注意机制的表征h0。更多细节可以在NQG++的实现中找到(周等，2017)。传统方法使用编码器和解码器的隐藏状态之间的相关性来计算注意力权重，该相关性被定义在单词级别。内容选择器z在生成之前决定关注什么，因此具有在句子级别提供关注的能力。这类似于数据到文本生成中使用的思想。因此，结合内容选择概率o来细化位置t处的注意力权重αt，I:

请注意，以这种方式合并内容选择是一个独立的操作，可以插入到任何标准的注意力方法中。
至于世代分布，我们采用copygenerator(见et al，2017)来处理词汇外问题。然后，施加在问题内容上的损失函数(对应于等式3的第二项)可以计算如下:

5.4 Training

由于所选内容在模型中起着重要的作用，假设它们与最终生成的内容一致。虽然这种行为可以通过等式11以端到端的方式学习，但我们添加了一个辅助损耗函数来促进它。形式上，如果源令牌xi出现在目标问题q中，将内容选择 $g_i$ 的金色标签设置为1，否则设置为0。没有真正的焦点注释，上述标签作为代理，以方便学习。损失函数因此被定义为:

众所周知，带有RNN解码器的普通CVAE具有无法在潜在变量中编码有意义信息的风险。受先前工作相同关注的启发，我们也采用词袋损失 $L_{bow}$ (θ，φ；x，q)作为辅助损失，这就需要潜变量来预测目标题中显示的词。此外，还结合了KL成本退火技术，以使pφ(z|x，q)和pθ(z|x)的散度逐渐影响学习过程。因此，整个框架的总损失函数定义为:

六.实验

实验部分一般可以被设置为三部分：
第一部分简单的介绍使用的数据集或者数据。然后介绍使用的评估指标，最后介绍一下实验使用的超参数或者使用到的设备信息。
第二部分就是实验结果和实验的分析，以及消融实验和案例分析
第三部分有的会存在模型参数性能的对比实验和分析，就是针对该模型的其他参数进行验证。或者对该模型进行讨论等。

6.1 实验设置

6.1.1 数据集：

在两个公共数据集上进行实验，分别为SquAD和NewsQA。至于SQuAD，遵循周等人(2017)的相同语料库分裂，并直接利用他们提供的词汇特征。在训练集、开发集和测试集中分别有86635、8965和8964个句子-答案-问题三元组。至于NewsQA，遵循这个数据集的原始分割，产生92549、5166和5126个三元组用于训练、开发和测试。

6.1.2 实现详细：

词汇表被设置为包含每个训练集中最频繁的20000个单词。设置单词嵌入的维度为300，隐藏大小为512。词汇特征和焦点指示符的表示被随机初始化为16维向量。潜在变量z的维度和问题类型预测器的隐藏大小被设置为128。在编码器和解码器中，RNN的层数都被设置为1。使用Adam optimizer 更新模型参数，学习率为0.001，动量参数β1 = 0.9，β1 = 0.999。在训练期间，批次大小设置为64。开发集用于寻找最佳模型和超参数。的模型是用Pytorch 1.0.0实现的。

6.2 基线和评估指标

将本文的方法与最近的多样化生成方法进行比较，包括截断采样、多样化波束搜索、混合解码器和混合内容选择。上述基线的实现和命名惯例遵循Cho等人(2019)的实现和命名惯例。为了获得每个段落-答案对的N代，从等式6定义的多模态先验中采样N个内容选择器。给定这些内容选择器，问题类型被提升为与算法1不同，并且为了公平比较而进行贪婪搜索。注意，对于获得N个样本的先验模式的数量(K)没有限制。然而，设置K = N并从每个模式中获取一个样本是一个自然的选择。把这个模型命名为N-M先验。在进一步的分析中，将展示对k设置不同值的影响。使用Cho等人(2019)采用的metrics2来评估生成的质量和多样性:

Top-1 metric：这衡量了N个最佳代中的最高精度(BLEU-4)。
Oracle metric：这通过将前N代中的最佳假设与目标问题进行比较来衡量前1代的精确度上限(Oracle BLEU-4)。该指标反映了前N代的整体质量。
Pairwise metric：这度量了分布内的相似性。该度量计算生成的集合中一个句子和其余句子之间的句子级度量的平均值(Self BLEU-4)。低成对度量表示高多样性。根据这些指标，我们提出了一个全面的衡量标准来平衡发电质量和多样性。
Overall metric：这衡量了关于质量和多样性的整体性能:Top-1指标× Oracle指标÷成对指标。此外，我们引入了关于所生成问题类型多样性的其他两个指标。
Type coverage metric：这衡量目标问题的问题类型被前N代覆盖的百分比。
Type diversity metric：这衡量前N代中不同问题类型的平均数量。

6.3 结果和分析

6.3.1 与基线比较的结果

关于SQuAD的实验结果显示在表1中。该表显示，使用我们的方法(N-M. Prior)生成的问题的质量得分与BLEU-4和现有技术水平相当，这比基于波束搜索和采样的方法优越得多。此外，从多样性的角度来看，我们的方法明显优于其他混合模型，从而在多样性和质量之间取得最佳平衡，如整体度量所示。此外，通过对问题类型的度量，我们可以发现我们的模型在覆盖率和多样性方面都有显著的提高，这是由于问题类型的显式建模和多样化造成的。从表2中的NewsQA上的性能，我们可以观察到类似的现象，即我们的方法在多样性度量方面表现得更好。我们还进行人类评估比较从我们的模型3-M. Prior与表3中的其他混合模型基线生成的问题的多样性。该表显示，我们的方法在具有统计显著性的多样性方面优于其对手。
在这里插入图片描述

6.3.2 多样化问题类型

如算法1中所述，可以通过设置不同的衰减值来明确控制问题类型的多样性。图3(a)清楚地显示了这种影响。随着衰减逐渐增加，问题类型的多样性增加，以及它们对黄金类型的覆盖。此外，从图3(b)中，我们可以看到，衰减值越小，生成质量指标越好。原因是，纳入更多不同的问题类型可能会导致提出更多好问题的可能性。随着其价值的不断增长，多样性不断增加，但存在问题类型使用不当的风险，这导致生成质量略有下降。我们可以根据整体度量选择适当的衰减值。
在这里插入图片描述

6.3.3 消融实验

为了显示模型中重要组件的影响，对SQuAD进行了消融研究。如表4所示，所提出的多样性促进算法可以明显改善世代多样性，而对质量几乎没有负面影响，这也可以在衰减较小时在图3中示出。至于内容选择，将它的影响结合到编码器-解码器架构中明显改善了整体度量。此外，我们观察到，对所选内容的辅助损失函数可以产生很大的差异，这表明它有必要使内容选择器专注于多样化和有效的文本片段。此外，学习CVAE技巧有助于提供更多信息的潜在变量，并显著提高多样性。
在这里插入图片描述

6.3.4 多模态先验分布的影响

即使给定标准高斯先验，内容选择器的连续属性也使得生成N个问题成为可能。然而，多模态先验的引入可以用更多种类来丰富内容选择器，并且导致更多样化的世代。如表5所示，在生成多个问题(N = 3，5)时，先前模式的数量(K = 1，3，5)对指标有影响。首先，我们可以看到，与标准先验相比，多模态先验具有提高世代多样性的能力，这与我们的猜想相吻合。第二，当试验设置N = K时，几乎所有的指标都更好。我们可以从以下事实来解释这一点:内容选择器的样本可以取自不同的先验模式，这些模式更加多样化。而且，推理符合这种情况下的训练过程。

6.3.5 定性分析

图4显示了从我们的模型3-M. Prior及其混合模型副本中生成的问题的示例。如本例所示，我们这一代人的问题类型经常不同，表现出更大的多样性。此外，我们在图1中突出显示了从我们的模型中选择的每一代内容，这显示了我们的内容选择模块的有效性。当我们使用多模态先验技术时，生成的问题的多样性可以从帧内和帧间模式反映出来。从图5中我们可以看到，与其他只能生成固定数量问题的混合模型不同，我们的连续建模选项可以通过从每个模式中重复采样来生成更多代。在这个例子中，来自不同模式的问题比来自同一模式的问题表现出更大的差异，这再次证明了多模态先验的使用对世代多样性有影响。
在这里插入图片描述

七.总结

总结一般是：首先简答的介绍提出的模型方法，如何做的，实验结果如何。然后进一步对未来的工作进行展望。

在本文中，明确地从语境焦点和表达方式的角度对问句生成进行了多样化处理。本文通过连续的内容选择器对焦点进行建模，并引入多模态优先，以允许更多样化的选择器。我们通过问题类型的建模和相关的多样性促进算法来考虑各种表达方式。在公共数据集上，本文的方法实现了生成质量和多样性之间的最佳平衡。进一步的分析也证明了所提出的模型组件的有效性。