论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token
论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang
发表团队: MEGVII Technology
项目页面: https://onechartt.github.io
———————————————————————————————————————————
工作摘要
1、本研究旨在提出一种可靠的图表结构提取代理,以应对图表解析中多样性的挑战。
2、作者提出了OneChart,一个端到端的图表信息提取工具。该模型采用了流行的视觉语言模型(VLM)架构,并引入了一个辅助令牌以增强数字输出的可靠性。此外,作者还设计了辅助解码器,并通过定制的L1损失进行优化。
3、实验结果显示,OneChart在多个公共基准测试中显著优于当前的图表解析模型,尤其是在没有数字注释的图表中,其平均精度提高了19.1%到29.4%。同时,该模型在与流行的大型视觉语言模型集成时,在下游ChartQA基准测试中的准确率提高了10%以上。
4、OneChart是一个创新的框架,用于从图表中提取和解释信息。作者证明了专门设计的损失函数对特定任务的重要性,并表示将专注于扩展OneChart的能力,以涵盖更多样化和复杂的图表类型。