AIGC |「多模态模型」系列之OneChart:端到端图表理解信息提取模型

论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token

论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang

发表团队: MEGVII Technology

项目页面: https://onechartt.github.io

———————————————————————————————————————————

工作摘要

1、本研究旨在提出一种可靠的图表结构提取代理,以应对图表解析中多样性的挑战。

2、作者提出了OneChart,一个端到端的图表信息提取工具。该模型采用了流行的视觉语言模型(VLM)架构,并引入了一个辅助令牌以增强数字输出的可靠性。此外,作者还设计了辅助解码器,并通过定制的L1损失进行优化。

3、实验结果显示,OneChart在多个公共基准测试中显著优于当前的图表解析模型,尤其是在没有数字注释的图表中,其平均精度提高了19.1%到29.4%。同时,该模型在与流行的大型视觉语言模型集成时,在下游ChartQA基准测试中的准确率提高了10%以上

4、OneChart是一个创新的框架,用于从图表中提取和解释信息。作者证明了专门设计的损失函数对特定任务的重要性,并表示将专注于扩展OneChart的能力,以涵盖更多样化和复杂的图表类型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值