大模型论文 | ChartMoE：关于图表建模对齐的构思-CSDN博客

作为基础知识储备吧！图表理解的核心在于数据的构建对齐模式，训练方式什么的已经逐步统一了，这篇文章大概可以作为图表数据对齐的基准了，值得学习，算法往后越来越多模态，知识融合也定会纳入八股

论文：ChartMoE: Mixture of Diversely Aligned Expert Connector for Chart Understanding
链接：https://arxiv.org/abs/2409.03277
代码：https://github.com/IDEA-FinAI/ChartMoE
模型：https://huggingface.co/IDEA-FinAI/chartmoe
**数据：**https://huggingface.co/datasets/Coobiw/ChartMoE-Data

以 InternLM-XComposer2 模型为训练起点、引入 MoE Connector 结构的多模态大语言模型，具有先进的图表理解、图表重绘、图表编辑、重要部分高亮、转换图表类型等能力。

</>聚焦：MOE对齐策略在图表场景的深度应用，ChartMoE 利用多样的对齐任务进行专家初始化，这种方法加大了专家间的异质性，使 ChartMoE 可以学习到更全面的视觉表征，展现出显著的解释性。

</>方法精讲：

通用 MLLM，如 LLaVA，他们的 training recipe 通常分为两个阶段：

第一阶段：使用图文对（image-text pair）训练 MLP Connector
第二阶段：SFT训练 MLP Connector+LLM，如：ACL24 的 ChartAst，使用成对的 Chart-Table 进行第一阶段的图文对齐。

Table 这种结构化文本格式，其中仅包含了每个数据点的数值，以及 xy 轴的含义等信息，几乎不保留视觉元素信息，如：颜色、图表类型、图形元素的相对关系等。所以，ChartMoE 希望采用更多样、更全面的对齐方式，将 Chart 转译成三种结构化文本格式：Table、JSON、Python Code。

以开源数据集（ChartQA、PlotQA、ChartY）中的表格数据作为起始点，为每个图表类型人为定义了 JSON 键，通过 random 生成、GPT 生成等方式为每个键填上对应的值，从而构建出 JSON 数据。将 JSON 中的键值对填入到每个图表类型预定义好的代码模板中得到 Python 代码来生成图表，从而构成 (Chart, Table, JSON, Code) 四元组，通过这种方式，采集了约 900k 数据，称为 ChartMoE-Align。

ChartMoE 采用 chart-to-table、chart-to-json、chart-to-code 三种方式进行图文对齐，每个任务分别训练一个独立的 MLP Connector，拼上初始的通用 MLLM 中的 MLP Connector，再加上一个随机初始化的 learnable router，就可以构成一个亟待吃下 SFT 数据的 MoE Connector，即：Diversely Aligned MoE。

ChartMoE 训练三个阶段：

多阶段对齐（数据：ChartMoE-Align，Table 500k + JSON 200k + Code 100k），仅训练 MLP Connector，最后拼成 MoE Connector。
学习高质量知识（使用 MMC-Instruct 数据集，包含很多 Chart 相关的任务，如：Chart Summarization），训练 MoE Connector（尤其是 Learnable Router，亟待学习）以及 LLM Lora。
Chart 领域 SFT（ChartQA + ChartGemma）：训练 MoE Connector 以及 LLM Lora；

</>Example:（数据处理大概就是这个里面最重要的了）