[论文阅读] MATCHA : Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering_matcha: enhancing visual language pretraining with-CSDN博客

本文链接：https://blog.csdn.net/moment8aVry/article/details/142399602

源码链接：已经集成在transformers库中，可直接加载模型（MatCha (huggingface.co)）

启发：MATCHA模型关键是具有两个能力，第一个是把图表图像还原成表格以及代码，第二个是强大的数学推理能力。但是数学推理能力依旧有提升空间，并且由于这种端到端的思路缺乏中间过程，可解释性较差，无法有针对性的解决数学推理的问题。之后的研究开始关注two-stage方法，需要思考two-stage方法相对端到端方法的优势性。

Abstract

最先进的LLM在chart、plot等视觉语言数据上表现不佳，本文提出了 MATCHA （Math reasoning and Chart derendering pretraining）来增强视觉语言模型在联合建模图表/绘图和语言数据方面的能力。具体来说，我们提出了几个预训练任务，涵盖图表解构和数值推理，它们是视觉语言建模的关键能力。我们从 Pix2Struct 开始执行 MATCHA 预训练，Pix2Struct 是最近提出的一种图像到文本的视觉语言模型。在 PlotQA 和 ChartQA 等标准基准测试中，MATCHA 模型的性能比最先进的方法高出近 20%。我们还研究了 MATCHA 预训练转移到屏幕截图、教科书图表和文档数字等领域的能力，并观察整体改进，验证了 MATCHA 预训练对更广泛的视觉语言任务的有用性。

1 Introduction

多数视觉语言模型在ChartQA和PlotQA等任务上表现不佳。Pix2Struct （Lee et al.， 2023）是最近提出的一种视觉定位语言预训练策略，其性能明显优于标准视觉语言模型，也优于各种基于 OCR 的方法。Pix2Struct 设计了一种新颖的掩码网页屏幕截图解析任务，也设计了一种可变分辨率输入表示，用于预训练图像到文本encoder-decoder Transformer。在这项工作中，我们使用 Pix2Struct 作为基础模型，并通过图表渲染和数学推理任务进一步对其进行预训练。

我们认为视觉语言理解需要两个关键要素：（1）布局理解（包括数字提取及其组织）和（2&#