作为基础知识储备吧!图表理解的核心在于数据的构建对齐模式,训练方式什么的已经逐步统一了,这篇文章大概可以作为图表数据对齐的基准了,值得学习,算法往后越来越多模态,知识融合也定会纳入八股
论文:ChartMoE: Mixture of Diversely Aligned Expert Connector for Chart Understanding
链接:https://arxiv.org/abs/2409.03277
代码:https://github.com/IDEA-FinAI/ChartMoE
模型:https://huggingface.co/IDEA-FinAI/chartmoe
**数据:**https://huggingface.co/datasets/Coobiw/ChartMoE-Data
以 InternLM-XComposer2 模型为训练起点、引入 MoE Connector 结构的多模态大语言模型,具有先进的图表理解、图表重绘、图表编辑、重要部分高亮、转换图表类型等能力。
</>聚焦:MOE对齐策略在图表场景的深度应用,ChartMoE 利用多样的对齐任务进行专家初始化,这种方法加大了专家间的异质性,使 ChartMoE 可以学习到更全面的视觉表征,展现出显著的解释性。
</>方法精讲:
通用 MLLM,如 LLaVA,他们的 training recipe 通常分为两个阶段:
第一阶段:使用图文对(image-text pair)训练 MLP Connector
第二阶段:SFT训练 MLP Connector+LLM,如:ACL24 的 ChartAst,使用成对的 Chart-Table 进行第一阶段的图文对齐。
Table 这种结构化文本格式,其中仅包含了每个数据点的数值,以及 xy 轴的含义等信息,几乎不保留视觉元素信息,如:颜色、图表类型、图形元素的相对关系等。所以,ChartMoE 希望采用更多样、更全面的对齐方式,将 Chart 转译成三种结构化文本格式:Table、JSON、Python Code。
以开源数据集(ChartQA、PlotQA、ChartY)中的表格数据作为起始点,为每个图表类型人为定义了 JSON 键,通过 random 生成、GPT 生成等方式为每个键填上对应的值,从而构建出 JSON 数据。将 JSON 中的键值对填入到每个图表类型预定义好的代码模板中得到 Python 代码来生成图表,从而构成 (Chart, Table, JSON, Code) 四元组,通过这种方式,采集了约 900k 数据,称为 ChartMoE-Align。
ChartMoE 采用 chart-to-table、chart-to-json、chart-to-code 三种方式进行图文对齐,每个任务分别训练一个独立的 MLP Connector,拼上初始的通用 MLLM 中的 MLP Connector,再加上一个随机初始化的 learnable router,就可以构成一个亟待吃下 SFT 数据的 MoE Connector,即:Diversely Aligned MoE。
ChartMoE 训练三个阶段:
-
多阶段对齐(数据:ChartMoE-Align,Table 500k + JSON 200k + Code 100k),仅训练 MLP Connector,最后拼成 MoE Connector。
-
学习高质量知识(使用 MMC-Instruct 数据集,包含很多 Chart 相关的任务,如:Chart Summarization),训练 MoE Connector(尤其是 Learnable Router,亟待学习)以及 LLM Lora。
-
Chart 领域 SFT(ChartQA + ChartGemma):训练 MoE Connector 以及 LLM Lora;
</>Example:(数据处理大概就是这个里面最重要的了)
后面的大篇数据分析,参考性不大,毕竟图表数据本身就很复杂,场景内分布差异性很大很大
结论:
- ChartMoE通过MoE架构连接器和多任务对齐预训练,显著提高了图表理解和推理的能力。
- 该模型在多个基准测试中表现优异,并在实际应用中展示了其强大的能力,如图表问答、翻译和编辑。
- 通过引入大规模的对齐预训练数据集和高质量的训练策略,ChartMoE在图表理解领域取得了显著的进展,为未来的研究提供了新的思路和方向。
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】