ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

最新推荐文章于 2024-10-10 10:30:20 发布

liferecords

最新推荐文章于 2024-10-10 10:30:20 发布

阅读量997

点赞数 21

分类专栏： LLM 文章标签：语言模型自然语言处理深度学习 transformer 人工智能

本文链接：https://blog.csdn.net/liferecords/article/details/139750184

版权

LLM 专栏收录该内容

71 篇文章 6 订阅

订阅专栏

ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

相关链接：arxiv github
关键字：Chart-to-Code、Multimodal Models、Cross-Modal Reasoning、Benchmark、Code Generation

摘要

本文介绍了一个新的基准测试ChartMimic，旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic使用信息密集型的视觉图表和文本指令作为输入，要求LMMs生成相应的图表渲染代码。ChartMimic包含1000个人工策划的(图表，指令，代码)三元组，代表了在各个领域(如物理、计算机科学、经济学等)科学论文中发现的真实图表使用案例。这些图表涵盖了18种常规类型和4种高级类型，细分为191个子类别。此外，我们提出了多级评估指标，以自动全面评估输出代码和渲染图表。与现有的代码生成基准测试不同，ChartMimic强调评估LMMs协调融合多种认知能力的能力，包括视觉理解、代码生成和跨模态推理。对3个专有模型和11个开放权重模型的评估突显了ChartMimic所带来的巨大挑战。即使是先进的GPT-4V和Claude-3-opus模型也仅分别达到了73.2和53.7的平均分，表明还有很大的改进空间。我们预计ChartMimic将激发LMMs的发展，推动人工通用智能的追求。

核心方法

在这里插入图片描述

ChartMimic基准测试的核心方法包括以下几个关键点：

信息密集型视觉输入：与自然图像相比，科学图表通过复杂的视觉逻辑传达微妙的语义含义，展现出更高的信息密度。
多样化图表类型：ChartMimic定义了两种任务，分别是直接模仿(Direct Mimic)和定制模仿(Customized Mimic)，利用图表和文本指令作为输入。
多级评估指标：从高级和低级两个角度评估LMMs的性能，包括图表的视觉效果和代码生成的准确性。
人工策划数据集：通过收集学术文档和科学论文，手动注释了1000个(图表，指令，代码)三元组，涵盖了22种常用图表类型和191个子类别。
代码追踪器：设计了代码追踪器来监控真实代码和生成代码的执行过程，记录文本、布局、类型和颜色信息。

实验说明

在ChartMimic上对14个LMMs进行了测试，包括3个专有模型和11个开放权重模型。实验结果显示，尽管一些开放权重模型在公共排行榜上的表现与专有模型如GPT-4V相当，但在ChartMimic上仍存在显著的性能差距。特别是，表现最好的开放权重模型Phi-3-Vision在两项任务上的表现仅为GPT-4V的一半，表明还有很大的改进空间。

以下是实验结果的Markdown表格展示：

模型	参数量	执行成功率	文本	布局	类型	颜色	平均分
GPT-4V	-	-	91.4	74.3	87.1	73.8	74.3
Claude-3-opus	-	-	86.4	61.8	79.0	45.3	37.9
Phi-3-Vision	4.2B	-	66.0	36.4	45.0	39.0	34.3

实验数据来源于ChartMimic基准测试，要求模型能够准确地生成图表渲染代码，并在视觉和逻辑上与真实图表保持高度一致。

结论

本文开发的ChartMimic基准测试旨在通过图表到代码的生成评估LMMs的熟练能力。ChartMimic专注于数据可视化的实际应用，旨在评估LMMs协调融合多种认知能力的能力，包括视觉理解、代码生成和跨模态推理。我们提出了两个不同层次的评估指标（低级和高级），以提供全面的评估。ChartMimic直接为人工通用智能的进展做出贡献，反映了在各个专业领域中熟练成年人的专业知识和推理能力。尽管ChartMimic具有全面性，但像任何基准测试一样，它也有局限性。手动策划过程虽然彻底，但可能引入偏见。此外，使用科学图表作为信息密集型视觉输入来衡量LMMs的多模态代码生成能力，虽然有效，但仍面临特定领域的挑战。我们的评估指标虽然考虑了大多数元素的相似性，但并没有统一地对子图标（如标记）的细节进行评分。我们预计ChartMimic将激发LMMs的发展，推动人工通用智能的追求。未来的研究可以探索各个方面，如多模态推理提示策略，以进一步缩小开放权重LMMs和专有模型之间的差距。