ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation
相关链接:arxiv github
关键字:Chart-to-Code、Multimodal Models、Cross-Modal Reasoning、Benchmark、Code Generation
摘要
本文介绍了一个新的基准测试ChartMimic,旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic使用信息密集型的视觉图表和文本指令作为输入,要求LMMs生成相应的图表渲染代码。ChartMimic包含1000个人工策划的(图表,指令,代码)三元组,代表了在各个领域(如物理、计算机科学、经济学等)科学论文中发现的真实图表使用案例。这些图表涵盖了18种常规类型和4种高级类型,细分为191个子类别。此外,我们提出了多级评估指标,以自动全面评估输出代码和渲染图表。与现有的代码生成基准测试不同,ChartMimic强调评估LMMs协调融合多种认知能力的能力,包括视觉理解、代码生成和跨模态推理。对3个专有模型和11个开放权重模型的评估突显了ChartMimic所带来的巨大挑战。即使是先进的GPT-4V和Claude-3-opus模型也仅分别达到了73.2和53.7的平均分,表明还有很大的改进空间。我们预计ChartMimic将激发LMMs的发展,推动人工通用智能的追求。
核心方法
在这里插入图片描述
ChartMimic基准测试的核心方法包括以下几个关键点:
- 信息密集型视觉输入:与自然图像相比,科学图表通过复杂的视觉逻辑传达微妙的语义含义,展现出更高的信息密度。
- 多样化图表类型:ChartMimic定义了两种任务,分别是直接模仿(Direct Mimic)和定制模仿(Customized Mimic),利用图表和文本指令作为输入。
- 多级评估指标:从高级和低级两个角度评估LMMs的性能,包括图表的视觉效果和代码生成的准确性。
- 人工策划数据集:通过收集学术文档和科学论文,手动注释了1000个(图表,指令,代码)三元组,涵盖了22种常用图表类型和191个子类别。
- 代码追踪器:设计了代码追踪器来监控真实代码和生成代码的执行过程,记录文本、布局、类型和颜色信息。
实验说明
在ChartMimic上对14个LMMs进行了测试,包括3个专有模型和11个开放权重模型。实验结果显示,尽管一些开放权重模型在公共排行榜上的表现与专有模型如GPT-4V相当,但在ChartMimic上仍存在显著的性能差距。特别是,表现最好的开放权重模型Phi-3-Vision在两项任务上的表现仅为GPT-4V的一半,表明还有很大的改进空间。
以下是实验结果的Markdown表格展示:
模型 | 参数量 | 执行成功率 | 文本 | 布局 | 类型 | 颜色 | 平均分 |
---|---|---|---|---|---|---|---|
GPT-4V | - | - | 91.4 | 74.3 | 87.1 | 73.8 | 74.3 |
Claude-3-opus | - | - | 86.4 | 61.8 | 79.0 | 45.3 | 37.9 |
Phi-3-Vision | 4.2B | - | 66.0 | 36.4 | 45.0 | 39.0 | 34.3 |
实验数据来源于ChartMimic基准测试,要求模型能够准确地生成图表渲染代码,并在视觉和逻辑上与真实图表保持高度一致。
结论
本文开发的ChartMimic基准测试旨在通过图表到代码的生成评估LMMs的熟练能力。ChartMimic专注于数据可视化的实际应用,旨在评估LMMs协调融合多种认知能力的能力,包括视觉理解、代码生成和跨模态推理。我们提出了两个不同层次的评估指标(低级和高级),以提供全面的评估。ChartMimic直接为人工通用智能的进展做出贡献,反映了在各个专业领域中熟练成年人的专业知识和推理能力。尽管ChartMimic具有全面性,但像任何基准测试一样,它也有局限性。手动策划过程虽然彻底,但可能引入偏见。此外,使用科学图表作为信息密集型视觉输入来衡量LMMs的多模态代码生成能力,虽然有效,但仍面临特定领域的挑战。我们的评估指标虽然考虑了大多数元素的相似性,但并没有统一地对子图标(如标记)的细节进行评分。我们预计ChartMimic将激发LMMs的发展,推动人工通用智能的追求。未来的研究可以探索各个方面,如多模态推理提示策略,以进一步缩小开放权重LMMs和专有模型之间的差距。