[论文阅读]Chart-to-Text: Generating Natural Language Descriptions for Charts by Adapting the Transformer

原文链接: http://arxiv.org/abs/2212.09662

 

这篇文章主要贡献是定义了Chart-to-Text任务的基准,提出了一种用小模型解决摘要生成问题的方案,但是目前的研究大多利用大模型生成摘要,例如MATCHA、Pix2Struct等,它们在BLEU4得分上优于Chart2text

Abstract

研究对象:图表

研究问题:自动生成图表的自然语言摘要

研究方法:引入了新的数据集,并提出一个神经模型,这个神经模型是通过扩展一个在data-to-text生成任务中表现SOTA的模型而得到的。

1 Introduction

        早期的工作主要集中在从图表中查找突出信息的统计方法和基于规划的内容结构化方法以从基本图表生成文本标题。遗憾的是,用于生成摘要的基于预定义模板的 NLG 方法和基于规划的体系结构通常缺乏通用性,并且可能无法提供样式变化。除了基于模板和规划的方法(Reiter,2007 年),最近研究人员考虑了数据驱动的神经模型来从数据表生成文本。本篇论文就提出一个基于transformer的神经模型。

我们论文的贡献有三个方面:

  • (1)引入了一个新的大规模图表语料库摘要,包括人类编写的图表摘要以及图表图像及其基础数据。
  • (2)采用基于 transformer 的模型来生成图表摘要,该模型从数据集中的图表-摘要对中学习。据我们所知,我们的工作是第一个使用数据驱动的深度神经模型研究图表摘要问题的工作。
  • (3)最后,我们进行了一系列评估,将模型的性能与 Gong et al. (Gong et al., 2019) 得出的基线模型进行比较。作为次要贡献,我们将公开我们的源代码和本研究中使用的新数据集。

2 Related Work

2.1 Chart Summarization

2.2 Data-to-Text Generation

        Data-to-Text Generation的目标是在给定结构化数据的情况下生成描述性摘要。数据到文本生成侧重于从结构化数据创建描述性摘要,这些数据可以编码为表格。最近的几种方法主要集中在使用序列到序列学习方法,但后续研究发现Seq2seq方法在从data生成自然文本方面表现不佳,生成出的文本连贯性存在问题,而transformer在连贯性方面表现较好,所以后续研究以transformer为主。

3 Chart Summarization Dataset

创建了Chart2Text数据集(https://github.com/JasonObeid/Chart2Text

4 The Chart-to-Text Model

4.1 Base Model

5 Evaluation

5.1 Automatic Evaluation

        采用了两种指标:(1)BLEU(Bleu: a method for automatic evaluation of machine translation);(2)Content Selection(Challenges in data-to-document generation

 5.2 Human Evaluation

        为了进一步调查生成文本的质量,我们执行人工评估。为此,我们随机抽样了 40 个不同的图表,其中来自四种类型的图表(简单条形、复杂条形、简单折线、复杂折线)各10个。我们创建了一项 Mechanical Turk 研究,并根据统计数据调查了三名不同的受访者。我们使用调查从四个独立的角度评估每个摘要的质量:(1) 信息量:图表摘要的信息量如何?(2) 简洁性:图表摘要的简洁性如何?,(3) 连贯性:图表摘要的连贯性如何?(4) 流利度:图表摘要中的句子的流利程度或语法正确性如何?采用5分制对上述指标进行打分。

5.3 Case Study

5.4 Error Analysis

        最容易发生的错误是事实性幻觉,也就是生成的摘要中有一些与图表内容无关的信息。发生这类错误的原因主要有两种,第一种是索引错误,有时模型会引用到错误的行索引(行标题);第二类是数据导致的无关性标记错误,表现为数据量越少的图表类型,在生成摘要时越容易生成一些与图表内容无关的错误信息。

6 Conclusion and Future Work

        在本文中,我们通过引入一个新的数据集并提出一种基于 transformer 架构的神经方法来应对自动图表摘要的挑战。我们的方法通过修改黄金摘要以将对图表数据值的引用替换为数据变量来学习如何从图表生成自然语言描述。因此,与基本模型相比,该模型学会了如何以更通用的方式进行总结,并生成了更多事实正确的陈述。我们的模型还根据人工评估生成信息更丰富、更简洁、更连贯的摘要。我们希望我们的工作将激励研究人员进一步提高从图表自动生成的摘要的质量,这是一个高度未被充分探索的研究领域。将来,我们希望开发更大的数据集,涵盖更多样化的领域和其他图表类型(例如饼图、散点图、热图等),以进一步提高我们模型的质量和泛化性。此外,虽然我们将我们的方法与 (Gong et al., 2019) 的强大基线进行了比较,但我们将与为数据到文本生成问题开发的其他模型进行进一步比较。最后,我们希望构建应用程序,例如交互式图表摘要系统,重点是增强图表的可访问性,以便盲人和视障人士可以通过音频理解图表。

音乐转换器是一种能够生成具有长期结构的音乐的技术。传统上,音乐生成模型主要依赖于自回归模型,即根据前面的音符预测下一个音符。这种方法很难捕捉到音乐的长期结构,因为它只关注于当前音符与前面音符的关系。 然而,音乐转换器采用了一种全新的方法。它将音乐的生成问题转化为基于自注意力机制的序列到序列问题。自注意力机制允许模型在生成每个音符时考虑到整个音乐序列的信息,而不仅仅是前面的音符。 此外,音乐转换器还引入了一种基于位置编码和层归一化的技术,来增强模型对音乐序列的表征能力和泛化能力。位置编码在序列中为每个位置分配一个向量,以提供位置信息。而层归一化则可以确保模型的每一层都保持相似的输出分布,从而提高模型的训练稳定性和生成效果。 通过这些创新技术的运用,音乐转换器能够更好地捕捉到音乐的长期结构。它可以生成具有旋律、和声和节奏等多个音乐要素的音乐片段,并且这些片段之间能够形成完整的结构,如引言、主题、发展和回旋等。 总之,音乐转换器是一种利用自注意力机制、位置编码和层归一化等技术生成具有长期结构的音乐的方法。它的创新之处在于能够全局考虑音乐序列的信息,并能够生成具有完整结构的音乐片段。这使得音乐转换器成为一个有潜力的工具,在音乐创作和生成领域有着广阔的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值