[论文阅读] STRUCTCHART: PERCEPTION, STRUCTURING, REASONING FOR VISUAL CHART UNDERSTANDING

原文链接:http://arxiv.org/abs/2309.11268

源码链接:https://github.com/UniModal4Reasoning/SimChart9K

启发:本文将图表解析成STR三元组<行标题,列标题,值>,而不是常见的CSV格式的表格,而且实验结果也成功体现了这种做法非常有效(有超过10个点的提升)。SCRM也很适合用于三元组相似性的评估。

Abstract

        在本文中,我们旨在为联合感知和推理任务建立一个统一的、标签高效的学习范式,该范式通常可以适用于不同的下游任务,而不仅仅是问答任务。具体来说,StructChart 首先将图表信息从流行的线性化 CSV 标记(就是常见的表格形式)重新归纳为结构化三元组表示 (STR),由于对图表采用结构化信息提取,它更有利于减少图表感知和推理任务之间的差距。然后,我们提出了一个面向图表的结构化表示指标 (SCRM) 来定量评估图表感知任务的性能。为了丰富用于训练的数据集,我们进一步探索了利用大型语言模型 (LLM) 的可能性,在图表视觉样式及其统计信息方面增强了图表的多样性(利用大预言模型合成数据)。对各种与图表相关的任务进行了广泛的实验,证明了统一的图表感知推理范式在推动图表理解前沿方面的有效性和有前途的潜力。

1. INTRODUCTION

贡献如下:

(1) 为了实现稳健的图表感知和推理,我们提出了结构化三元组表示 (STR),它取代了图表相关任务中广泛使用的线性化 CSV 标记。

(2) 基于所提出的 STR 格式,我们设计了一种新的面向图表的结构化表示度量(SCRM),适用于各种与图表相关的感知任务,其评估灵敏度可以通过预设的超参数灵活调整。

(3) 我们利用基于 LLM 的自检数据生产方案,为图表感知和推理进行数据增强,生成 SimChart9K 数据集。此外,我们观察到,随着更多的模拟图表被用于预训练,StructChart 不断提高图表感知性能。

2. RELATED WORKS

图表感知:是指从图表中获取数字和文本值。ChartReader(Rane et al., 2021)采用组合方法,使用 OCR 支持的基于规则或启发式的边缘提取来提取文本元素。(Choi et al., 2019) 采用一般目标检测的思想,通过将每个条视为一个对象来检测条形成分。ChartOCR(Luo et al,2021)采用CornerNet(Law & Deng,2018)主干进行关键点检测,以重建图表组件(例如条形和扇区),并使用OCR来计算组件值。

图表推理:旨在利用图表图像信息来执行逻辑或数学推理过程,其中问答 (QA) 是显示图表推理能力的代表性任务。VL-T5-OCR(Masry等人,2022 年)VisionTaPas-OCR(Masry等人,2022 年)扩展了 T5(Raffel等人,2020 年)和 TaPas(Herzig等人,2020 年)中的跨模态编码器,以考虑图表图像特征。此外,Pix2Struct (Lee et al., 2022) 尝试使用屏幕截图解析输入,从丰富的网站数据中进行自我监督的预训练。

图表理解:比图表推理处于更广泛的层次,涵盖了更多开放式和高级任务。除了问答任务外,图表理解还包含更广泛的生成任务,例如图表摘要、图表重绘等。Matcha (Liu et al., 2022b)Deplot (Liu et al., 2022a) 是图表理解的开创性尝试,都执行了 QA 和摘要任务。Matcha (Liu et al., 2022b) 用图表渲染和数学推理任务预训练 Pix2Struct (Lee et al., 2022),而 Deplot (Liu et al., 2022a) 利用视觉语言预训练模型 (VLPM) 来提取图表信息,随后使用 LLM 进行 QA 和摘要的推理。

3. THE PROPOSED METHOD

       StructChart 包括四个关键组件:(1) 基于 Transformer 的面向图表的信息提取器 (CIE)。它集成了图像编码器和文本解码器,将图表图像转换为CSV格式的文本(每一行表示一个数据记录,每个字段之间通过逗号分隔,文本表示的表格)。(2) 结构化表示转换。将CSV 文本构建为三元组形式(<行标题,列标题,值>),以阐明标题和索引之间的位置关系。(3) 构建面向图表的表示指标 (SCRM)。我们设计了一个指标,全面评估变换后的三元组的质量,这有助于后续的推理。(4) 基于LLM的自检数据制作方案。我们设计了一种新的图表数据模拟方法,以增强零样本和少样本的感知和推理能力,在放大模拟图表时实现持续的性能提升。

3.1 DESIGN FOR TWO-STAGE STRUCTCHART

不是端到端框架,而是两步式,先感知后推理(先结构感知得到三元组,再做后面的问答和总结)。

(1)感知阶段:基于ViT transformer的encoder-decoder架构,得到Linearized CSV Tokens(LCT)。

(2)推理阶段:LCT转换成STR,使用GPT3.5作为LLM完成推理。

3.2 STRUCTURED TRIPLET REPRESENTATIONS (STR) FOR CHART UNDERSTANDING

Task Definition and Structuring:三元组结构定义如下

Evaluation Metric Design:设计了结构化表示指标(SCRM)来评估STR的好坏。在比较预测的STR与GT的STR时,我们将Entityrn 、 Entitycm 分别视为字符串,将 Valuecrnm 视为浮点数。

(1)图像方面(从单张图像考虑):假设有P组预测三元组,有Q组GT三元组。

对于Entity,计算编辑距离(edit distance)

对于Value,计算相对误差(relative error)

为了进一步实现综合评估,我们设计了三个等级的细粒度评判阈值(容忍度),表示为:tol := \{strict, slight, high\},其中

strict := \{J_{thr}|_{tol} = 0 \wedge e_{thr}|_{tol} = 0\}

slight := \{J_{thr}|_{tol} = 2 \wedge e_{thr}|_{tol} = 0.05\}

high := \{J_{thr}|_{tol} = 5 \wedge e_{thr}|_{tol} = 0.1\}

确定评判阈值后,通过计算IoU|_{tol}来衡量预测三元组与GT三元组之间的相似度(预测三元组和GT三元组越接近,就有越多的l(p,q)取值为1,那么IoU|_{tol}就越大):

 

(2)数据集方面(从所有图像考虑):假设数据集有L张图表图像,定义第i张图像的交并比为 IoU(i)。给定一个相似度阈值t,t可以是一个变量,相应的判别函数定义如下:

最后SCRM有两个指标,一个是Precision(使用固定相似度阈值),一个是mPrecision(使用可变相似度阈值)

3.3 SIMULATING CHARTS WITH ENHANCED DIVERSITY FOR PRETRAINING-FINETUNING

借助GPT3.5制作出合成数据集SimChart9K

4. EXPERIMENTS

4.1 EVALUATION DATASETS AND IMPLEMENTATION DETAILS

数据集:ChartQA、PlotQA、FigureQA、Chart2Text、SimChart9K

评估指标:SCRM

4.2 CHART PERCEPTION RESULTS ON REAL-WORLD AND SIMULATION DATA

StructChart的SCRM评估分数更高,说明 StructChart 生成的三元组更准确

 合成数据集对模型实现提高三元组转换准确率是有利的。

5. Conclusion

        这项工作解决了从可视化图表中提取和理解结构化信息的任务。我们提出了一种 plot-to-triplet 转换,以实现图表感知的客观性和精确性。此外,我们利用 LLM 生成更多的查询数据和绘制代码,以增强在实际设置下(例如小样本图表感知、图表重绘和问答)的泛化能力。对于未来的工作,我们可能会寻求一个包含我们技术的端到端框架,这仍然是一个悬而未决的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值