AEG: Argumentative Essay Generation via A Dual-Decoder Model withContent Planning(EMNLP2022)

摘要

生成论证是计算论证中的一个重要但具有挑战性的任务。现有的研究主要集中在生成短篇个体性论证上,而对于生成长篇连贯的论证性文章的研究仍然较少。在本文中,我们提出了一个新的任务,即论证性文章生成(AEG)。给定一个写作提示,AEG的目标是自动生成一篇有强有力说服力的论证性文章。我们构建了一个大规模的数据集ArgEssay来用于这个新任务,并基于双解码器Transformer架构建立了一个强大的模型。我们的模型包含两个解码器,一个规划解码器(PD)和一个写作解码器(WD),其中PD用于生成文章内容规划的序列,而WD则将规划信息融入到写作中。此外,我们还对这个模型在大规模新闻数据集上进行了预训练,以增强规划和写作范式。自动评估和人工评估结果显示,与几个基线模型相比,我们的模型可以生成更连贯、更有说服力、多样性更高且重复性较少的文章。

1.引言

表1:我们提出的论证性论文生成任务的一个例子。对于一个有争议的话题的写作提示,任务是生成一篇组织良好的、具有良好连贯性和强说服力的议论文。主要的主张表达了本文的主题、立场和主要观点。

最近几年,自动生成论证的任务,即在有争议的问题上生成有说服力的论证,引起了很多研究兴趣(Toulmin,2003;Zukerman等,2000)(Khatib等,2021;Schiller等,2021)。许多工作涉及不同类型的论证生成,例如反驳论证生成(Hua和Wang,2018;Hua等,2019;Hidey和McKeown,2019;Alshomary等,2021b)和在特定主题或方面下的可控论证生成(Gretz等,2020;Schiller等,2021;Alshomary等,2021a;Khatib等,2021)。然而,现实生活场景,如新闻社论、竞争性辩论甚至电视节目,需要更强大的方式来系统地组织论证,以撰写能够充分表达观点并说服观众的长篇文章或演讲。先前的研究主要集中在生成个别且相对较短的论证上,在处理这些长篇论证生成任务时可能存在不足之处。

在本文中,我们旨在回答如何生成和组织一篇全面、连贯的论证性文章,其中可以包含多个具有不同方面的论证。这是一个具有挑战性但基础的任务,需要更多的理解人类智能以解决这个问题(Slonim等,2021)。然而,随着预训练方法的卓越发展(Devlin等,2019;Brown等,2020;Bommasani等,2021),生成连贯的长篇文档在合理的质量范围内是可行的(Guan等,2021;Yu等,2021)。因此,为了促进这一研究领域的发展,我们引入了一个新的文档级生成任务,即论证性文章生成(AEG),其重点是根据写作提示生成具有强有力说服力的长篇论证性文章。表1展示了AEG的一个示例。在这个示例中,给定的写作提示指定了一个关于"在线教育"的主题。预期的论证性文章首先介绍主题并陈述立场(第1段),然后通过一系列论证来证明其观点(第2-3段),最后总结并强调主要观点(第4段)。我们可以看到,AEG需要生成与给定主题相关的不同方面的相关主张和证据,并进一步以合适的逻辑方式将它们适当地结合起来,组成一篇论证性文章。

为了推进AEG的进展,我们构建了一个大规模的数据集ArgEssay,其中包含了11,000篇高质量的论证性文章,以及它们所对应的一些常见有争议的主题的写作提示,例如技术进步、教育方法论、环境问题等。我们提出的数据集是基于一些国际标准化英语考试(如雅思和托福)的写作任务构建的,这些考试也在自动化作文评分(Blanchard等,2013)和论证挖掘(Stab和Gurevych,2017)的其他任务中进行了研究。与以前从社交媒体收集的论证生成数据集相比,我们数据集中的文章在措辞和写作上更为正式,因此质量更高,使我们的数据集成为研究论证生成的更好选择。

为了解决提出的AEG任务,我们采用了规划-写作范式来生成多样且内容丰富的论证性文章,因为内容规划被证明对于长篇文本生成是有益的(Fan等,2019;Hua和Wang,2019)。我们建立了基于编码器-解码器的Transformer模型,其中包含了一个规划解码器(PD)用于生成关键词或关系三元组作为文章内容规划,以及一个写作解码器(WD)用于在规划的指导下撰写文章。采用这种双解码器架构可以将规划和写作过程分离,避免相互干扰。自动评估结果显示,我们的模型在多样性和重复性方面优于几个强基线模型。人工评估结果进一步证明,我们模型生成的文章保持良好的连贯性和强有力的说服力。我们还展示了与基线模型相比,我们的模型产生了更好的规划,并且生成的文章内容可以通过规划有效地控制。此外,我们的模型在在大规模新闻数据集上进行预训练后,性能可以进一步提高。

我们的贡献总结如下:
• 我们提出了论证性文章生成的新任务,并为该任务创建了一个大规模且高质量的基准数据集。
• 我们建立了一个基于Transformer的双解码器模型,以规划-写作的方式生成论证性文章,并通过预训练进一步改善了模型性能。
• 通过自动和人工评估,我们证明了我们提出的模型相比几个基线模型可以生成更连贯、更有说服力、多样性更高且重复率更低的论证性文章。

2.相关工作

相关工作
2.1 论证性文章分析
自早期以来,论证性文章的分析已经得到了广泛的研究(Madnani等,2012;Beigman Klebanov和Flor,2013)。为了全面研究论证性文章中的论证结构,Stab和Gurevych(2014, 2017)提出了具有论证组成部分和论证关系注释的Persuasive Essay数据集。基于这个数据集,许多后续研究旨在更好地解析论证性文章中的论证结构(Persing和Ng,2016;Eger等,2017;Potash等,2017;Kuribayashi等,2019;Bao等,2021)。

上述研究与我们的工作密切相关,因为对论证性文章结构和质量的分析可以通过提供结构化的论证知识来支持AEG。

2.2 论证生成
早期的论证生成工作涉及大量手工设计的特征,例如构建论证知识库(Reed,1999;Zukerman等,2000)或设计论证策略(Reed等,1996;Carenini和Moore,2000)。为了将现有的论证性文本框架化为新的论证,一些工作采用基于论证检索的方法(Levy等,2018;Stab等,2018)生成论证(Sato等,2015;Hua和Wang,2018;Wachsmuth等,2018),而其他一些工作则通过重新构建现有的主张或证据来综合生成论证(Yanase等,2015;Bilu和Slonim,2016;Baff等,2019)。

最近,越来越多的注意力集中在使用神经模型进行端到端的论证生成上(Hua和Wang,2018;Hidey和McKeown,2019)。Hua等人(2019)提出了一种通过外部知识增强的序列到序列框架,用于生成反驳论证。Gretz等人(2020)探索了基于预训练语言模型GPT-2(Radford等,2019)的流水线方法,用于生成连贯的论证主张。Schiller等人(2021)开发了一种可控的论证生成模型,可以控制生成的论证的主题、立场和方面。Alshomary等人(2021a)提出了基于信念的主张生成任务,并利用条件语言模型生成受观众先前信仰控制的论证。Khatib等人(2021)提出使用论证知识图来控制论证生成。

然而,当前的论证生成研究仅限于生成个体且相对较短的论证,没有考虑生成包含多个观点方面的长篇连贯的论证性文章。

2.3 长文本生成
我们的工作还与长文本生成研究密切相关,如故事生成(Fan等,2018;Yao等,2019;Guan等,2020;Xu等,2020)、数据到文本生成(Puduppully等,2019;Hua等,2021;Hua和Wang,2020;Dong等,2021)、段落生成(Hua和Wang,2019;Yu等,2021)和作文生成(Feng等,2018;Yang等,2019;Qiao等,2020;Liu等,2021)。

大部分研究集中在生成叙事文本或描述性文本上,而我们则专注于生成具有论证性的论证性文章,更加注重论证性。

总结:
在相关工作方面,先前的研究主要关注论证性文章的分析和短篇论证的生成。我们的工作针对生成长篇连贯的论证性文章提出了新的任务,并采用了规划-写作范式和基于Transformer的模型来解决这一任务。与现有的基线模型相比,我们的模型在多样性、连贯性和说服力方面取得了显著的改进。此外,我们的工作还与长篇文本生成研究相关,但我们着重于生成具有论证性的论证性文章。

3.创建数据集

表2:将我们的数据集与现有的参数生成数据集进行比较。(Avg. Tokens)/(Avg. Sents)表示目标生成文本中的令牌/句子的平均数量。

我们的数据集是从Essay Forum收集的,这是一个由专业作家和编辑建立的在线社区,旨在帮助用户撰写、编辑和修订他们的文章。具体而言,我们在Essay Forum的写作反馈部分选择了高质量的文章和提示,用户在这里发布他们的文章以获取标准化英语考试(如雅思或托福)的修订建议。此外,写作反馈部分的文章也被用于论证挖掘的研究(Stab和Gurevych,2014, 2017)。

首先,我们收集了Essay Forum写作反馈部分的所有帖子。然后,为了获得提示-文章对并确保文本质量,我们进行了几个预处理步骤,包括:
- 在每个帖子中分离文章和提示。对于作者没有用粗体或斜体标记提示的帖子,我们将其过滤掉,然后进行手动处理;
- 根据手动总结的规则过滤非论证性文章的提示-文章对(如叙事性文章、人物描述性文章和图表分析文章等);
- 通过基于规则的删除和手动处理清除无关的文本,如特殊字符、用户名以及感谢或问候的表达;
- 仅保留文章包含不超过500个标记(通过Stanford CoreNLP工具包进行分词)和4或5段的提示-文章对。进行这个步骤的原因是,在Essay Forum的写作反馈部分,不满足上述要求的文章很可能不是以论证性写作风格呈现的(Stab和Gurevych,2014)。

最终的数据集包含11,282个英文提示-文章对,其中9,277/1,002/1,003对用于训练/验证/测试。我们将我们提出的数据集与现有的论证生成数据集进行了比较(见表2)。我们的ArgEssay包含了更长的目标文本和更丰富的内容,这使得任务更具挑战性。此外,大多数现有的数据集是从社交媒体构建的,而我们数据集中的文章是为标准化英语考试编写的,从用词和结构上更加正式。

值得注意的是,Essay Forum的管理员会审核并删除任何被认为是诽谤、种族主义或其他不适当的帖子。因此,我们数据集的伦理性可以得到保证。此外,我们还手动检查数据集以避免伦理问题。

至于数据集的划分,我们希望尽量减少训练集和验证/测试集在提示方面的重叠,否则很难测试模型在新提示上的泛化能力。因此,我们首先基于TF-IDF从提示中提取关键词,并将任意两个提示的相似度定义为它们关键词集合之间的Jaccard相似度。然后,在划分数据时,对于验证/测试集中的任何提示,我们确保它与训练集中的每个提示之间的相似度不超过一个阈值ϵ。经过几轮手动验证,我们设置ϵ = 0.65,观察发现,这个阈值可以合理地将相似度超过0.30的验证/测试提示与任何训练提示分开。

总的来说,我们的数据集是从Essay Forum收集的,经过多个预处理步骤和人工审核,确保了数据集的质量和伦理性。该数据集包含了较长且更正式的目标文本,与现有的数据集相比更具挑战性。

4.Methods

我们提出的AEG任务可以如下定义:给定一个写作提示X=[x1, x2, ..., xm],需要生成一个相关的论证性文章Ye=[y1, y2, ..., yn]。为了生成多样且内容丰富的文章,我们提出了一个基于Transformer的双解码器模型,采用计划-写作策略。具体来说,我们的模型首先预测一个规划序列Yp,然后通过规划注意力在规划序列的指导下生成论证性文章Ye。规划策略在长文本生成研究中被广泛使用。在这里,我们采用双解码器架构来进行规划和文章的生成,而不是使用一个独立的模型来预测规划(Fan等,2019;Xu等,2020),这样可以实现端到端训练。

接下来,我们将首先介绍构建训练规划序列Yp的方法,然后详细描述我们的模型。

4.1 规划的构建
为了灵活性,我们不严格限制规划的形式,只要它是自然语言文本即可。在本文中,我们研究了两种基于自动方法的规划方式:基于关键词的规划和基于关系的规划。

1)对于基于关键词(KW)的规划,我们使用TF-IDF(Salton和McGill,1984)得分来确定重要词作为关键词。我们基于语料库计算TF-IDF,然后选择前l个得分最高的词来构建基于关键词的规划Yp=k1#1|k2#2|...|kl#l|,其中ki是第i个关键词,“#”和“i”是特殊标记,关键词之间用“|”分隔。

2)类似地,对于基于关系(Rel)的规划,我们首先使用现成的OpenIE(Angeli等,2015)提取每篇文章中的所有关系三元组,然后随机抽样l个三元组来构建基于关系的规划Yp=s1#r1#o1#1|...|sl#rl#ol#l|,其中si、ri和oi分别是第i个三元组的主语、关系和宾语。

这样,我们可以通过关键词或关系来生成规划序列Yp,为后续的文章生成提供指导。需要注意的是,我们在每个关键词或每个关系三元组之后附加“#i”,以控制生成的规划长度。这种做法已被证明可以防止模型生成不必要的过多或不足的关键词/三元组(Liao等,2019)。在这里,我们将l称为规划长度,在主要实验中将l设置为10。l的影响将在第6.5节中进行讨论。

训练的BART-Base作为基础模型。遵循先前的工作(Gretz等,2020;Xu等,2020;Khatib等,2021),在推理解码时,我们使用了一个top-k采样方案,其中k = 40,并设置温度为0.7。我们的模型使用PyTorch(Paszke等,2019)实现,并在NVIDIA Tesla V100 GPU上进行训练。我们限制生成的文本长度大于200个标记。使用AdamW优化器(Kingma和Ba,2015)进行参数优化,初始学习率为3e-5。

5.3 评估指标
自动评估。我们使用以下指标进行自动评估。
(1)Distinct通过计算不同n-gram与生成的所有n-gram之间的比例来衡量生成的文章多样性(Li等,2016)。
(2)Novelty通过计算生成的文章与训练数据之间的差异来衡量。具体而言,根据Yang等(2019)和Zhao等(2020)的方法,对于每篇生成的文章,我们基于n-gram计算其与训练集中每篇文章的Jaccard相似系数,并选择最高的相似度作为新颖性得分。
(3)Repetition通过计算包含至少一个重复n-gram的生成文章的百分比来衡量生成的文章的冗余性(Shao等,2019)。
(4)BLEU(Papineni等,2002)计算生成文本与参考文本之间的n-gram重叠。如果生成的文本的可读性或流畅性(翻译为中文)

5 实验设置


5.1 对比模型
我们构建了以下基线模型进行对比。
BART BART(Lewis等,2020)是用于自然语言生成的强大的序列到序列基线模型,它在几个去噪任务上进行了预训练。我们在我们提出的ArgEssay数据集上对预训练的BART模型进行微调,而不使用任何规划信息。
BART-KW 在先前的工作中,为了将知识信息与论证结合起来,我们进行了一种称为BART-KW的方法,通过将每个规划与文章连接起来作为整体目标进行预测。即BART-KW首先预测关键词规划,然后生成文章。BART-KW也是从BART-base进行微调。
DD-KW 对于我们的双解码器(DD)模型,我们将基于关键词的规划的双解码器模型称为DD-KW。请注意,DD-KW没有通过新闻数据进行预训练,而是以BART-base作为起点。此外,基于DD-KW,我们还实现了以下两个模型进行进一步比较:
DD-KW w/o planning-att 我们对规划注意力模块进行了削减,即将DD-KW中的规划注意力替换为普通的注意力,以研究使用规划来明确指导文章生成的有效性。请注意,与BART不同,这个模型的规划可以通过编码器在训练过程中影响文章生成。
DD-KW w. pre-training 我们在DD-KW上应用新闻预训练(详见第4.3节)。
BART-Rel和DD-Rel 对于使用基于关系的规划的方法,我们实现了四个模型:BART-Rel、DD-Rel、DD-Rel w/o planning-att和DD-Rel w. pre-training。
5.2 实现细节
对于所有模型,我们使用预训练的BART-Base作为基础模型。遵循先前的工作(Gretz等,2020;Xu等,2020;Khatib等,2021),在推理解码时,我们使用了一个top-k采样方案,其中k = 40,并设置温度为0.7。我们的模型使用PyTorch(Paszke等,2019)实现,并在NVIDIA Tesla V100 GPU上进行训练。我们限制生成的文本长度大于200个标记。使用AdamW优化器(Kingma和Ba,2015)进行参数优化,初始学习率为3e-5。

5.3 评估指标
自动评估。我们使用以下指标进行自动评估。
(1)Distinct通过计算不同n-gram与生成的所有n-gram之间的比例来衡量生成的文章多样性(Li等,2016)。
(2)Novelty通过计算生成的文章与训练数据之间的差异来衡量。具体而言,根据Yang等(2019)和Zhao等(2020)的方法,对于每篇生成的文章,我们基于n-gram计算其与训练集中每篇文章的Jaccard相似系数,并选择最高的相似度作为新颖性得分。
(3)Repetition通过计算包含至少一个重复n-gram的生成文章的百分比来衡量生成的文章的冗余性(Shao等,2019)。
(4)BLEU(Papineni等,2002)计算生成文本与参考文本之间的n-gram重叠。如果生成的文本的可读性或流畅性(翻译为中文)生成的论文很差,其BLEU分数将会极低。因此,我们提供了BLEU分数作为评估论文质量的参考。在这里,不同的和新颖性用于评估多样性,而重复和BLEU用于评估质量。

人类评估。为了进行更全面的分析,我们进行了包含三个方面的人工评估。(1)相关性评估所生成的文章的全部内容是否在语义上与给定的写作提示相关,这是一篇合格的议论文的基本要求。(2)连贯性是指所生成的文章在语境中的语义和因果依赖性方面是否具有逻辑一致性和合理性,这与议论文的说服力密切相关。(3)内容丰富度衡量的是所生成的文章中所涵盖的不同相关方面的数量,这是议论文的一个重要特征。所有三个方面的得分都应该从1(最差)到5(最佳)。我们从测试集中随机抽取50个写作提示。每个注释项都包含输入的写作提示和不同模型生成的文章。我们为每个不知道生成的文章来自哪个模型的项目分配了3个注释器。

6结果与分析

6.1自动评价

表3显示了自动评价结果。与BART相比,我们提出的DD-KW和DD-Rel获得了显著更好的不同分数,适度更好的重复和新颖性分数。BART-KW和BART-Rel在不同、重复和新颖性方面都比DD-KW和DD-Rel差,显示了双解码器结构的有效性。此外,消除计划的注意力(没有计划-att)会降低不同的和重复的分数。在BLEU分数方面,DD-KW和DD-Rel的表现与BART相似,表明双解码器结构不会降低生成论文的可读性和流畅性。此外,将预训练合并到我们的双解码器模型中可以进一步提高性能,这表明预训练可以增强这种平面-写生成范式。每个模型生成的论文的平均长度约为290-300篇。总的来说,通过双解码器架构和训练前策略的支持,我们的模型可以生成更多样化和更少重复的文章,同时保持良好的可读性和流畅性。

6.2 人工评估
人工评估的结果如表4所示。平均的Fleiss' kappa系数为0.42。就相关性而言,由于存在话题漂移问题,BART、BART-KW和BART-Rel的表现较差,即生成的文章与给定的话题几乎没有关联(详见附录C中的案例研究)。与BART相比,所有其他具有规划的模型在内容丰富度得分方面表现更好,因为生成的规划可以提供更多多样化的方面信息,并引导模型编写包含更多例子或观点的文章。此外,预训练策略可以显著提高连贯性。

6.3 规划质量
我们从以下几个方面衡量生成的规划质量:(1)召回率:评估预测的规划序列中有多少个关键词/三元组与预期规划序列相符。(2)关键词重复:(仅适用于基于关键词的规划)评估生成的规划序列中至少重复一次的关键词数量。(3)无效性:(仅适用于基于关系的规划)评估生成的三元组中有多少是无效的,即不符合4.1节中描述的形式。(4)规划相关性:评估每个预测的关键词/三元组是否与提示相关,并通过手动分析随机选择的50个样本来获得。

如表5所示,仅使用单个解码器同时生成规划和文章(BART-KW和BART-Rel)会导致关键词重复率高或无效率高的问题。相反,使用单独的规划解码器(DD-KW和DD-Rel)不仅改善了召回率和规划相关性,还缓解了关键词重复率或无效率的问题。此外,我们还观察到通过预训练我们的双解码器模型,规划质量可以进一步提升。

6.4 控制性评估
为了评估规划对生成的文章的控制程度,我们衡量每个关键词/三元组是否出现在生成的文章中(出现性)。此外,我们手动检查了50个生成的样本,并确定每个关键词/三元组所包含的信息是否被适当地使用(适用性)。如表6所示,BART-KW和BART-Rel的出现性和适用性都较低,而我们的双解码器模型(DD-KW和DD-Rel)则获得了显著更好的结果。经过预训练后,约有73.20%/57.40%的关键词/三元组被写作解码器适当地采用,显示出很高的可控性。此外,去除规划注意力模块(w/o planning-att)会大幅降低出现性和适用性。

6.5 规划长度的影响
在基于关键词的规划模型的基础上,我们进一步研究了规划长度l对多样性(Dist-4)和准确性(BLEU-4)的影响。如图2所示,对于所有模型,随着规划长度的增加,多样性增加,但准确性下降。通过人工评审,我们发现当BLEU-4小于约6.3时,文章的可读性变得非常差(流畅性低,重复性高)。因此,选择适当的规划长度对于生成既多样又可读的文章非常重要。然而,我们预训练的双解码器模型(DD-KW w. pre-training)不仅可以在适当的规划长度下实现更好的多样性,而且即使在极端情况下,也可以确保比基线模型更好的可读性。

7 结论
在本文中,我们提出了一个具有挑战性的新任务AEG,用于生成长篇连贯的论证性文章。为了解决这个任务,我们提供了一个大规模的数据集,并基于BART提出了一个双解码器架构,可以以端到端的方式生成规划和受规划指导的文章。实验结果证明了我们模型的优越性。对于未来的工作,我们计划借鉴外部知识来生成更多样化和信息丰富的论证性文章。

限制
首先,正如附录C中讨论的,从逻辑连贯性的角度来看,生成的文章与人类撰写的文章之间仍存在明显差距。在我们的方法中,我们没有设计机制来确保生成的文章在事实和因果逻辑上的连贯性,这仍然是一个巨大的挑战。因此,未来的工作可以考虑使用外部知识或因果推理技术来提高生成的文章的逻辑连贯性。

其次,虽然我们的双解码器架构使得内容规划和文章生成更好,但也引入了一些新的参数和计算。未来的工作可以研究更高效的方法,减少模型参数的数量。

伦理声明
我们的数据集是从公开可用的来源收集的,并没有包含任何个人身份特征。在从在线平台“essayforum.com”爬取数据时,我们仔细阅读并遵守该平台的隐私政策和使用条款。根据该平台的协议,可以在注明来源的情况下访问和使用其中的任何内容。

由于我们使用的在线平台的管理员会审核并删除任何被认为是诽谤、种族主义或其他不当的帖子,因此我们的数据集的道德性可得到保证。我们还对数据集中的每个样本进行了手动检查,以确认不存在任何伦理问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值