原文:https://arxiv.org/pdf/1809.00582.pdf
代码:https://github.com/ratishsp/data2text-plan-py
Abstract
数据到文本生成的最新进展已经导致使用大规模数据集和神经网络模型,这些模型是端到端训练的,没有明确地模拟说什么和按什么顺序。 在这项工作中,我们提出了一个神经网络架构,其中包含内容选择和规划,而不会牺牲端到端的培训。 我们将生成任务分解为两个阶段。 给定一组数据记录(与描述性文档配对),我们首先生成一个内容计划,突出显示应该提及哪些信息以及以何种顺序,然后在考虑内容计划的同时生成文档。 自动和基于人工的评估实验表明,我们的模型优于强基线,改善了最近发布的ROTOWIRE数据集的最新技术水平。
Introduction
输入可以是各种形式,包括记录数据库,电子表格,专家系统知识库,物理系统模拟等。 表1示出了包含NBA篮球比赛统计数据的数据库形式的示例,以及相应的比赛概要。
传统的数据到文本生成方法实现了一系列模块,包括内容规划(content planning 从某些输入中选择特定内容并确定输出文本的结构),句子规划(sentence planning 确定每个句子的结构和词汇内容)和表面实现 (surface realization将句子计划转换为表面字符串)。最近的神经生成系统没有明确地模拟这些阶段中的任何阶段,而是使用非常成功的编码器 - 解码器架构作为其主干,以端到端的方式训练它们。
神经网络生成系统的缺陷:
神经系统难以捕获长期结构并且生成多于几句长的文档。 Wiseman表明,神经文本生成技术在内容选择方面表现不佳,他们努力维持句子间的一致性,更常见的是输出文本中所选事实的合理排序。 其他挑战包括避免冗余和忠实于输入。 有趣的是,与基于模板的方法的比较表明,神经技术在内容选择召回和事实输出生成的度量上表现不佳(即,它们经常产生数据库中事实不支持的语句)。
文章解决方案:
我们通过在神经数据到文本架构中明确地建模内容选择和规划来解决这些缺点。Our model learns a content plan from the input and conditions on the content plan in order to generate the output document (see Figure 1 for an illustration).
三个优点:
它代表了文档结构的高级组织,使解码器能够专注于更轻松的句子规划和表面实现任务; 它通过生成中间表示使得数据到文档生成的过程更具有解释性; 并减少输出中的冗余,因为内容计划不太可能在多个位置包含相同的信息。