Pragmatically Informative Text Generation 论文理解(附代码)

本文探讨了如何使用计算语用学技术改进条件文本生成模型的信息量,通过两种语用学建模方法——重建器和干扰物基础,提升从结构化意义表示的抽象概括和摘要生成的性能。
摘要由CSDN通过智能技术生成

原文地址:https://arxiv.org/pdf/1904.01301v2.pdf

Github代码:https://github.com/sIncerass/prag_generation

摘要

我们使用计算语用学技术改进了条件文本生成模型的信息量。 这些技术将语言生成形成为说话者和听众之间的游戏,其中说话者应该生成输出文本,听者可以使用该输出文本来正确识别文本描述的原始输入。 虽然这些方法被广泛用于认知科学和基础语言学习,但它们对于更多标准语言生成任务的关注较少。 我们考虑两种用于文本生成的语用学建模方法:一种是通过信息保存强加语用学,另一种是通过干扰物的显式建模强加语用学。 我们发现这些方法改进了强大的现有系统的性能,以便从结构化意义表示中进行抽象概括和生成。

1.简介

语用学的计算方法将语言生成和解释作为游戏理论或贝叶斯推理程序。虽然这些方法能够对各种语用现象进行建模,但它们在自然语言处理中的主要应用是提高基础语言学习问题中生成文本的信息量。在本文中,我们表明,语用推理可以类似地用于提高更传统的语言生成任务的性能,例如从结构化意义生成表示(图1)和摘要生成。

 

我们的工作基于一系列学习的Rational Speech Acts(RSA)模型,其中生成的字符串要经过选择以优化embedded听者模型(listener model)的行为。 RSA框架的规范性表述以reference分辨率为基础:言者模型(speaker model)试图在干扰者面前描述所指对象,并且听者模型试图将描述符解析为reference。 最近的工作将这些模型扩展到更复杂的基础,包括图像和轨迹。在这些设置中使用的技术是相似的,并且保留了RSA框架的主要思想:从言者的角度来看,良好的描述是尽可能有区别地挑选出言者打算让听者识别的内容。

在基础,认知建模和语言现象的有针对性分析之外,理性言语行为模型在自然语言处理文献中的应用有限。 在这项工作中,我们表明它们可以扩展到一类独特的语言生成问题,这些问题用作语言内容或其他自然语言文本的指示结构描述。 根据数量的格言(Grice,1970)或Q-原则(Horn,1984),语用学方法自然地纠正了在语言生成系统中观察到的不足信息问题(图1中的S0)。

我们提出了两种语言生成任务的实验:从意义表征生成文本和摘要生成。对于每项任务,我们评估两种语用学模型:Fried等人的基于重建器的模型(2018)和CohnGordon等人的基于分心器(distractor-based)的模型(2018)。两种模型均可提高两项任务的性能,在CNN/Daily Mail abstractive summarization 数据集上将ROUGE得分提高0.2-0.5分,在端到端(E2E)生成数据集上将BLEU得分提高2点,从而获得新的最先进的成果。

2.任务

我们将条件生成任务表示为从可能输入I的空间中获取输入i(例如,用于抽象概括的输入句子或用于结构化生成的意义表示)并且生成作为标记序列的输出。 我们在学习的base speaker模型之上构建我们的语用学方法,其在给定输入的输出文本上产生概率分布。我们专注于两个条件生成任务,其中输入上下文中的信息应在输出文本中大量保留,并将第3节中概述的语用学程序应用于每个任务。 对于这些S0模型,我们使用来自过去工作的系统,这些系统很强,但相对于人类参考输出可能信息仍然不够全面(例如,图1)。

Meaning Representations 意义表示

我们的第一个任务从包含属性-值对结构化意义表示(MRs)中生成文本。图1中显示了一个示例,其中系统必须生成具有指定属性的餐馆的描述。我们应用语用学来鼓励输出可以识别输入MR的字符串。对于我们的模型,我们使用与Dusek等人的最佳公布结果具有相当的性能泛开源神经生成系统。

Abstractive Summarization 抽象概括

我们的第二个任务是多句文档摘要。在摘要生成这个领域有大量的前人工作,最近的神经模型使用大型数据集来训练提取式和生成式模型。在这些网络中,我们选择Chen和Bansal的生成时神经摘要模型。首先,这个模型使用了一个句子级别的抽取式模型RNN-EXT来识别每个源文档中的一系列显著的句子。然后,这个系统使用一个生成式模型ABS来将每个$i^P$重写成输出​$o^P$,然后将连接起来生成最后的摘要。我们依赖固定的RNN-EXT模型来抽取句子作为我们语用学程序的输入,使用ABS作为我们的模型并且将语用学信息应用到的生成步骤中。

3.语用模型

为了产生信息输出,我们考虑使用听者模型L扩展基本言者模型的语用学方法,其在给定输出的情况下对可能的输入产生分布。听者模型用于导出pragmatic speakers,其产生具有使听者模型L高概率识别正确输入的输出。设计L和推导S1有很大的可能选择空间; 我们遵循两个过去的工作,我们将其归类为基于重建器和基于干扰器的工作(reconstructor-based and distractor-based)。我们通过开发重建器模型和选择干扰物的方法,将这两种语用学方法应用到我们的两个任务当中。

3.1 Reconstructor-Based Pragmatics

该类别中的语用方法依赖于独立于说话者定义的重构器听者模型L^R。在给定输出描述o的情况下,该听者模型在所有可能的输入上下文i∈I上产生分布。我们使用的序列到序列或结构化分类模型(如下所述),并在用于监督模型的相同数据上训练这些模型。

听者模型和基础的言者模型一起定义了一个pragamtic speaker,其输出分数定义为:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值