论文作者:Renqiu Xia,Bo Zhang,Haoyang Peng,Ning Liao,Peng Ye,Botian Shi,Junchi Yan,Yu Qiao
作者单位:Shanghai Jiao Tong University; Shanghai Artificial Intelligence Laboratory; Fudan University
论文链接:http://arxiv.org/abs/2309.11268v1
内容简介:
1)方向:图表理解
2)应用:该研究的应用领域是图表理解,包括从视觉图表中提取信息和根据提取的数据进行推理。
3)背景:图表在不同科学领域的文献中很常见,可以向读者传达丰富的信息。目前与图表相关的任务主要集中在图表感知和基于提取的数据进行推理两个方面。
4)方法:本文旨在建立一个统一且标签高效的学习范式,用于联合感知和推理任务,可以应用于不同的下游任务。首先将图表信息从流行的表格形式(具体来说是线性化的CSV)重新表述为提出的结构化三元组表示(STR),这对于减小图表感知和推理之间的任务差距非常友好,因为采用了结构化信息提取来处理图表。然后,提出了一种面向图表的结构化表示度量(SCRM),以定量评估图表感知任务的性能。为了丰富训练数据集,进一步探索了利用大型语言模型(LLM)的可能性,增强图表在图表视觉风格和统计信息方面的多样性。在各种与图表相关的任务上进行了大量实验,展示了统一的图表感知-推理范式的有效性和潜力,推动了图表理解的前沿。
5)结果:在各种与图表相关的任务上进行了广泛实验,结果表明了统一的图表感知-推理范式的有效性和潜在前景,从而推动了图表理解的前沿发展。