AIGC |「多模态模型」系列之OneChart：端到端图表理解信息提取模型

AIGCmagic社区

已于 2024-05-19 19:02:57 修改

阅读量1.9k

点赞数 32

分类专栏： AI多模态文章标签： AIGC 人工智能

于 2024-05-19 18:58:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIGCmagic/article/details/138766812

版权

论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token

论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang

发表团队: MEGVII Technology

项目页面: https://onechartt.github.io

———————————————————————————————————————————

工作摘要

1、本研究旨在提出一种可靠的图表结构提取代理，以应对图表解析中多样性的挑战。

2、作者提出了OneChart，一个端到端的图表信息提取工具。该模型采用了流行的视觉语言模型(VLM)架构，并引入了一个辅助令牌以增强数字输出的可靠性。此外，作者还设计了辅助解码器，并通过定制的L1损失进行优化。

3、实验结果显示，OneChart在多个公共基准测试中显著优于当前的图表解析模型，尤其是在没有数字注释的图表中，其平均精度提高了19.1%到29.4%。同时，该模型在与流行的大型视觉语言模型集成时，在下游ChartQA基准测试中的准确率提高了10%以上。

4、OneChart是一个创新的框架，用于从图表中提取和解释信息。作者证明了专门设计的损失函数对特定任务的重要性，并表示将专注于扩展OneChart的能力，以涵盖更多样化和复杂的图表类型。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。