[论文阅读] MATCHA : Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering

原文链接:http://arxiv.org/abs/2212.09662

源码链接:已经集成在transformers库中,可直接加载模型(MatCha (huggingface.co)

启发:MATCHA模型关键是具有两个能力,第一个是把图表图像还原成表格以及代码,第二个是强大的数学推理能力。但是数学推理能力依旧有提升空间,并且由于这种端到端的思路缺乏中间过程,可解释性较差,无法有针对性的解决数学推理的问题。之后的研究开始关注two-stage方法,需要思考two-stage方法相对端到端方法的优势性。

Abstract

        最先进的LLM在chart、plot等视觉语言数据上表现不佳,本文提出了 MATCHA (Math reasoning and Chart derendering pretraining) 来增强视觉语言模型在联合建模图表/绘图和语言数据方面的能力。具体来说,我们提出了几个预训练任务,涵盖图表解构和数值推理,它们是视觉语言建模的关键能力。我们从 Pix2Struct 开始执行 MATCHA 预训练,Pix2Struct 是最近提出的一种图像到文本的视觉语言模型。在 PlotQA 和 ChartQA 等标准基准测试中,MATCHA 模型的性能比最先进的方法高出近 20%。我们还研究了 MATCHA 预训练转移到屏幕截图、教科书图表和文档数字等领域的能力,并观察整体改进,验证了 MATCHA 预训练对更广泛的视觉语言任务的有用性。

1 Introduction

        多数视觉语言模型在ChartQA和PlotQA等任务上表现不佳。Pix2Struct (Lee et al., 2023) 是最近提出的一种视觉定位语言预训练策略,其性能明显优于标准视觉语言模型,也优于各种基于 OCR 的方法。Pix2Struct 设计了一种新颖的掩码网页屏幕截图解析任务,也设计了一种可变分辨率输入表示,用于预训练图像到文本encoder-decoder Transformer。在这项工作中,我们使用 Pix2Struct 作为基础模型,并通过图表渲染和数学推理任务进一步对其进行预训练。

        我们认为视觉语言理解需要两个关键要素:(1) 布局理解(包括数字提取及其组织)和 (2) 数学推理。布局理解需要发现图像的底层模式并以逻辑形式组织图像中的元素。数学推理需要对提取的元素进行操作并派生任务或查询所需的有意义信息。基于这些观察,我们提出了两个互补的预训练任务来增强视觉语言的理解:图表渲染数学推理。在图表反渲染中,给定一个绘图/图表,需要使用image-to-text模型来生成其底层数据表或用于渲染它的代码。第二个任务是数学推理预训练,首先我们选择两个数值推理数据集 MATH (Saxton et al., 2019) 和 DROP (Dua et al., 2019),将数据集中的题目(原本是文本)以图像形式呈现,然后再利用图像识别模型从图像中提取信息并给出答案(最终答案也是文本)。

       我们使用一套视觉语言任务来测试我们方法的有效性。在 ChartQA 和 PlotQA 上进行测试,MATCHA 甚至超过了 SOTA 模型,并且在没有高质量数据表(gold data table)时,可以比之前的 SOTA 高出 20%。我们还在图表到文本的摘要任务上测试了 MATCHA,并观察到比 Pix2Struct 有明显的改进,并在 Chart-toText 上实现了 SOTA(Kantharaj 等人,2022 年)。最后,为了检查 MATCHA 预训练是否推广到标准绘图和图表领域之外的数据集,我们还在评估 Pix2Struct 的另外四个领域上测试了 MATCHA:文档、插图、用户界面和自然图像(包括数据集,如教科书 QA、小部件字幕等)。与基本模型 Pix2Struct 相比,我们在大多数其他数据集上有所改进。

我们的贡献是:

(1) 为视觉语言学习提出了一组有效的预训练任务;

(2) 在 ChartQA、PlotQA 和图表到文本摘要(Statista 集)上展示了所有评估任务和 SOTA 结果的一致改进;

(3) 验证 MATCHA 预训练是否转移到图表和绘图域之外的视觉语言基准测试,并在图表类型以外的广泛数据集(如教科书 VQA 和小部件标题)中实现 SOTA;

(4) 全面的消融和分析,以了解每个预训练组件的效果及其对下游性能的影响。

2 Related Work

Vision-language research and a lack of attention on visual language

        目前的视觉语言模型在合成的视觉推理数据集上表现良好,但是在真实的视觉语言数据集上表现不佳,因为真实数据集更加复杂。

OCR-based & end-to-end methods for visuallysituated language

(1)OCR-based:LayoutLM (Xu等人,2020 年;Huang et al., 2022)利用 patch-OCR 对齐损失将外部 OCR 系统的知识注入 Transformer 模型;PresSTU (Kil et al., 2022) 和 PaLI (Chen et al., 2023) 也设计了 OCR 感知预训练目标,其中模型需要预测从现成的 OCR 系统获得的文本。ChartBERT (Akhtar et al., 2023) 依靠 OCR 文本和位置来训练 transformer 编码器。这类方法的缺点是OCR系统开销大,并且有些图表并没有明确写入数字,此时OCR系统就无法发挥作用。

(2)end-to-end:Donut (Kim et al., 2022)、Dessurt (Davis et al., 2023) 和 Pix2Struct (Lee et al., 2023) 是视觉语言的端到端预训练模型,其中 Donut 和 Dessurt 专注于文档理解,而 Pix2Struct 旨在为所有视觉语言任务提供通用的预训练检查点。

        本文提出的MATCHA架构与Pix2Struct架构相同,并且不断使用新目标预训练Pix2Struct的checkpoint。

Learning to reason by designing novel pretraining tasks

        MATCHA 通过设计更好的预训练目标以帮助语言模型 (LM) 更好地完成推理。

        Geva 等人(2020 年);Eisenschlos et al. (2020) 通过人工编写的模板生成额外的预训练数据,专注于(数字)推理。Pi et al. (2022) 综合数据和程序,然后执行程序来模拟答案,LM 经过预训练,可以预测给定数据和程序的答案。Wu et al. (2022) 探索了广泛的合成预训练任务,发现即使只是注入像归纳和演绎规则这样简单的知识,也可以教会 LM 进行推理。我们通过将图表映射到数据和代码来教授图像到文本模型进行推理,并直接学习文本数学推理数据集。

3 Method

        我们认为布局理解和基本数学运算能力是执行视觉语言理解/推理的关键要素。我们通过提出两个预训练任务将这些功能注入模型:图表渲染和数学推理。

3.1 Chart Derendering

        图表通常由一个数据表以及一段代码生成,代码决定图表整体布局,底层数据决定实际数字和分组。要理解图表,需要发现图像中的视觉模式,有效地解析和分组它们以提取关键信息。还原图表渲染过程需要所有这些功能,因此可以作为完美的预训练任务。

        在实践中,同时获取图表、其底层数据表及其渲染代码是具有挑战性的。为了收集足够的预训练数据,我们分别收集了(chart,code)和(chart,table)。对于(chart,code),我们爬取所有github IPython文件,并提取带有数字的代码块。对于(chart,table),第一种途径是手动编写代码,将维基百科表格转换为图表,另外还添加了来自PlotQA的(chart,table)数据;第二种途径是直接从专门网站(Statista, Pew, Our World in Data, and OECD)上把图表和对应表格都爬取下来,我们直接使用了ChartQA数据集。后续实验表明同时使用两种来源的数据集进行训练能够得到更好的表现。

3.2 Math Reasoning

        为了增强视觉语言模型数学推理能力,我们从数学数据集中学习,将数学推理知识显示注入到image-to-text模型之中。

        数据集方面使用MATH和DROP。MATH是合成数据集,每类问题包含200万的训练样本。DROP是阅读理解风格的QA数据集,输入是文本段落,包含问题与上下文,共6.7k个段落,包含96k个问答对,要解决 DROP 中的问题,模型需要读取段落,提取相关数字并执行数值计算以预测答案。我们发现这两个数据集具有互补的帮助。MATH 包含大量问题并进行分类,这有助于我们识别显式注入模型所需的数学运算。DROP 的阅读理解格式类似于典型的 QA 格式,其中模型需要同时执行信息提取和推理。在实践中,我们将两个数据集的输入渲染成图像(将上下文和问题连接起来,用于 DROP)(疑问:如何把文本输入渲染成图像?这个图像只是矩阵还是有具体视觉特征?)。图像到文本模型经过训练,可以解码给定的 redered 图像的答案。MATH 和 DROP 的示例可以在图 1 中找到(浅红色)。

        除了上述两个预训练策略之外,本文还继续沿用了Pix2Struct提出的screenshot parsing预训练任务,用于避免遗忘问题。

4 Experiment

4.1 Experimental Setups

设计了混合预训练任务,其中有 40% 的数学推理、40% 的图表反渲染和 20% 的屏幕截图解析。

数据集如下:

评估指标:对于ChartQA和PlotQA,沿用之前工作定义的指标;对于Chart-to-Text,我们使用BLEU4;对于Pix2Struct实验,沿用原作者引入的指标。

4.2 Main Results

4.3 Results on Pix2Struct Tasks

5 Analyses and Discussions

5.1 Ablation Study

5.2 Fine-grained Analysis and Error Analysis 

Error analysis:我们对 MATCHA 在 ChartQA 测试集上犯的 100 个错误进行抽样,并将这 100 个错误手动分为三类。在排除 21 个注释错误后,我们发现 48.3% 的错误与数学推理有关,43.4% 与数据提取有关,8.0% 与绘图属性有关。我们得出的结论是,即使 MATCHA 与 Pix2Struct 和 PaLI 相比提高了数学推理能力,数学推理仍然是主要挑战

6 Conclusion

        我们提出了一种用于视觉语言任务的预训练方法 MATCHA。MATCHA 通过学习 (1) 预测底层数据表并对给定图表图像进行编码,以及 (2) 解码数学问题的答案(以图像的形式呈现),将图表理解和推理知识注入到图像到文本转换器模型中。MATCHA 在三个图表领域基准的 6 个设置中的 5 个上建立了新的 SOTA,涵盖 QA 和摘要任务。对于图表域之外的视觉语言任务(例如,教科书 QA 和 DocVQA),MATCHA 在 Pix2Struct 的基础上进行了改进,表明在 MATCHA 预训练中学到的知识可以转移到预训练域之外。我们进行了全面的消融研究,以确定每个预训练组件和任务的实际影响,并发现图表渲染对于抽取性问题至关重要,而数学预训练对于需要复杂推理的查询很重要。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值