[今日Arxiv] Llava-Mod，多模态MOE知识蒸馏

最新推荐文章于 2025-04-21 16:21:13 发布

曲奇人工智能安全

最新推荐文章于 2025-04-21 16:21:13 发布

阅读量2.2k

点赞数 18

文章标签： llama 语言模型

本文链接：https://blog.csdn.net/qq_29883477/article/details/141947740

版权

今天分享一篇来自阿里/香港中文/北航的一篇MOE知识蒸馏文章。

文章标题：

Llava-Mod: Making Llava Tiny Via Moeknowledge Distillation

URL：https://www.arxiv.org/abs/2408.15881

注：Agent翻译可能存在误差，详细内容建议查看原始文章。

Abstract

我们引入了LLaVA-MoD，这是一种创新框架，旨在通过从大规模多模态语言模型（l-MLLM）中蒸馏知识，实现小型多模态语言模型（s-MLLM）的高效训练。我们的方法解决了MLLM蒸馏中的两个基本挑战。首先，我们通过将稀疏混合专家（MoE）架构整合到语言模型中来优化s-MLLM的网络结构，从而在计算效率和模型表现力之间找到平衡。其次，我们提出了一种渐进式知识转移策略以确保全面的知识迁移。这一策略从模仿蒸馏开始，在这一步骤中，我们通过最小化输出分布间的Kullback-Leibler（KL）散度使学生模型能够仿真教师网络的理解能力。随后，我们引入了基于直接偏好优化（DPO）的偏好蒸馏，其中的关键在于将l-MLLM作为参照模型。在这一阶段，s-MLLM辨别优劣样本的能力显著超越了l-MLLM，致使产生了超越其教师特别是在幻觉基准上的更优秀学生。广泛的实验表明，LLaVA-MoD在多种多模态基准上均胜过现有模型，同时保持最少的激活参数和低计算成本。引人注目的是，仅具备2B激活参数的LLaVA-MoD，在使用了0.3%的训练数据以及相对低的可训练参数（占总参数量的23%）的情况下平均超出Qwen-VL-Chat-7B8.8%，这些结果凸显了LLaVA-MoD从其教师模型中有效蒸馏全面知识的能力，为更高效MLLM的发展架设了一条道路。该代码将于https://github.com/shufangxun/LLaVA-MoD上发布。

1 Introduction

利用大型语言模型（LLMs）（Achiam 等，2023；Bai 等，2023a；Jiang 等，2024；Team 等，2023；Touvron 等，2023a;b；Dubey 等，2024）的高级指令遵循和推理能力，多模态大型语言模型（MLLMs）（Bai 等，2023b；Liu 等，2024；Lin 等，2024b；Li 等，2023b；Chen 等，2023b；Shu 等，2023；Lu 等，2024）通常集成了视觉编码器（Caron 等，2021；Radford 等，2021；Liu 等，2022）和大型语言模型，在各种视觉和跨模态任务上取得了有希望的成果，如图像标注和视觉问答。MLLMs 的特征是庞大的模型大小和广泛的数据集训练，这些对提升性能起了重要作用，但同时也要求大量的计算资源。比如，LLaVA-NeXT（Li 等，2024a）的最大版本使用 Qwen-1.5-110B（Yang 等，2024）作为语言模型，并需要 128 台 H800 GPU 训练 18 小时。此外，MLLMs 因其高内存和计算需求而在部署方面有挑战性。比如有着大量参数的模型，经常需要高级硬件并且展现出较慢的推理速度，这大大阻碍了它们在现实世界中的应用，比如移动设备上。因此，开发能平衡性能与效率的 MLLMs 已经成为关键的研究焦点。

图 1：训练成本与性能的比较。LLaVA-MoD 在显著降低训练成本的情况下，性能达到先进 MLLMs 的水平，在同时大幅度超越当前小规模 MLLMs 的表现。

关于小规模多模态大语言模型（s-MLLM）（周等，2024a；元等，2023；邵等，2024；何等，2024；楚等，2023；2024；姚等，2024）的先前工作主要集中在制定数据收集（舒曼等，2021；2022；朱等，2024；阿瓦达拉等，2024；加德雷等，2024; 陈等，2023a）和过滤协议（许等，2023；范等，2024；张等，2023；李等，2024b; 阮等，2024）上，以确保高质量的训练数据。虽然这类高质量的数据帮助 s-MLLM 缩小了与大型模型之间的性能差距，但其效率仍然受到模型容量和高质量数据可获得性的限制。随着开源 MLLMs 的出现，一种直观的策略来源于传统深度学习任务：利用大规模 MLLMs（l-MLLM）作为教师，通过知识蒸馏（KD）(辛顿等，2015)来改进 s-MLLM 的训练。知识蒸馏促进了小型模型稳定且高效地与教师模型输出分布对齐的训练过程。然而，在 MLLMs 中将 KD 作为一种模型缩减技术的应用尚未被广泛探索。要开发一个有效的 MLLM 蒸馏框架，我们考虑了两个主要挑战。第一个挑战在于设计一种轻量级学生 MLLMs 架构，保留强大的学习和表达能力，使它能有效地吸收教师 MLLMs 中嵌入的复杂知识。第二个挑战是如何有效且全面地将这种知识从教师 MLLMs 转移到学生 MLLMs。

为了应对这两个挑战，我们提出了 LLaVA-MoD1，这是通过混合专家（MoE）知识蒸馏来训练 s-MLLM 模仿 l-MLLM 行为的有效框架。

对于第一个挑战——设计轻量级的 s-MLLM 构造——一个直觉上的方法可能是减少 l-MLLM 中基础语言模型的规模以创建更小的网络。然而，直接减少网络参数显著损害了模型的表现能力，使其在处理复杂的多模态理解任务时变得不那么有效。受最近稀疏 MoE（林等，2024a；戴等，2024; 江等，2024；沈等，2023）在序列建模中成功应用的启发，我们将在密集 s-MLLM 中融入一个稀疏 MoE结构。这种方法力求在规模减少的同时保留模型捕捉和表征复杂多模态信息的能力以进行蒸馏。具体而言，我们通过给 s-MLLM 配备多个前馈网络（FFNs）和线性门控机制来增强它，在语言模型 LLM 中。每个 FFN 作为专家，从 l-MLLM 捕捉精细知识，而门控则选择最擅长的 k 名专家以促进最优的知识转移路径。

为了解决第二个挑战，我们提出了一种渐进蒸馏策略来实现有效的知识转移。这一过程首先通过一个可学习适配器将视觉编码器与 LLM 对齐，以初始化密集学生 MLLM。之后，我们采用两个连续的蒸馏阶段，在这些阶段中，学生模型从模仿和逼近教师MLLM发展至最终超越它