ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

相关链接:arxiv github
关键字:Chart-to-CodeMultimodal ModelsCross-Modal ReasoningBenchmarkCode Generation

摘要

本文介绍了一个新的基准测试ChartMimic,旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic使用信息密集型的视觉图表和文本指令作为输入,要求LMMs生成相应的图表渲染代码。ChartMimic包含1000个人工策划的(图表,指令,代码)三元组,代表了在各个领域(如物理、计算机科学、经济学等)科学论文中发现的真实图表使用案例。这些图表涵盖了18种常规类型和4种高级类型,细分为191个子类别。此外,我们提出了多级评估指标,以自动全面评估输出代码和渲染图表。与现有的代码生成基准测试不同,ChartMimic强调评估LMMs协调融合多种认知能力的能力,包括视觉理解、代码生成和跨模态推理。对3个专有模型和11个开放权重模型的评估突显了ChartMimic所带来的巨大挑战。即使是先进的GPT-4V和Claude-3-opus模型也仅分别达到了73.2和53.7的平均分,表明还有很大的改进空间。我们预计ChartMimic将激发LMMs的发展,推动人工通用智能的追求。

核心方法

在这里插入图片描述

ChartMimic基准测试的核心方法包括以下几个关键点:

  • 信息密集型视觉输入:与自然图像相比,科学图表通过复杂的视觉逻辑传达微妙的语义含义,展现出更高的信息密度。
  • 多样化图表类型:ChartMimic定义了两种任务,分别是直接模仿(Direct Mimic)和定制模仿(Customized Mimic),利用图表和文本指令作为输入。
  • 多级评估指标:从高级和低级两个角度评估LMMs的性能,包括图表的视觉效果和代码生成的准确性。
  • 人工策划数据集:通过收集学术文档和科学论文,手动注释了1000个(图表,指令,代码)三元组,涵盖了22种常用图表类型和191个子类别。
  • 代码追踪器:设计了代码追踪器来监控真实代码和生成代码的执行过程,记录文本、布局、类型和颜色信息。

实验说明

在ChartMimic上对14个LMMs进行了测试,包括3个专有模型和11个开放权重模型。实验结果显示,尽管一些开放权重模型在公共排行榜上的表现与专有模型如GPT-4V相当,但在ChartMimic上仍存在显著的性能差距。特别是,表现最好的开放权重模型Phi-3-Vision在两项任务上的表现仅为GPT-4V的一半,表明还有很大的改进空间。

以下是实验结果的Markdown表格展示:

模型参数量执行成功率文本布局类型颜色平均分
GPT-4V--91.474.387.173.874.3
Claude-3-opus--86.461.879.045.337.9
Phi-3-Vision4.2B-66.036.445.039.034.3

实验数据来源于ChartMimic基准测试,要求模型能够准确地生成图表渲染代码,并在视觉和逻辑上与真实图表保持高度一致。

结论

本文开发的ChartMimic基准测试旨在通过图表到代码的生成评估LMMs的熟练能力。ChartMimic专注于数据可视化的实际应用,旨在评估LMMs协调融合多种认知能力的能力,包括视觉理解、代码生成和跨模态推理。我们提出了两个不同层次的评估指标(低级和高级),以提供全面的评估。ChartMimic直接为人工通用智能的进展做出贡献,反映了在各个专业领域中熟练成年人的专业知识和推理能力。尽管ChartMimic具有全面性,但像任何基准测试一样,它也有局限性。手动策划过程虽然彻底,但可能引入偏见。此外,使用科学图表作为信息密集型视觉输入来衡量LMMs的多模态代码生成能力,虽然有效,但仍面临特定领域的挑战。我们的评估指标虽然考虑了大多数元素的相似性,但并没有统一地对子图标(如标记)的细节进行评分。我们预计ChartMimic将激发LMMs的发展,推动人工通用智能的追求。未来的研究可以探索各个方面,如多模态推理提示策略,以进一步缩小开放权重LMMs和专有模型之间的差距。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值