[今日Arxiv] Llava-Mod,多模态MOE知识蒸馏

今天分享一篇来自阿里/香港中文/北航 的一篇MOE知识蒸馏文章。

文章标题:

Llava-Mod: Making Llava Tiny Via Moeknowledge Distillation

URL:https://www.arxiv.org/abs/2408.15881

注:Agent翻译可能存在误差,详细内容建议查看原始文章。


Abstract

    我们引入了LLaVA-MoD,这是一种创新框架,旨在通过从大规模多模态语言模型(l-MLLM)中蒸馏知识,实现小型多模态语言模型(s-MLLM)的高效训练。我们的方法解决了MLLM蒸馏中的两个基本挑战。首先,我们通过将稀疏混合专家(MoE)架构整合到语言模型中来优化s-MLLM的网络结构,从而在计算效率和模型表现力之间找到平衡。其次,我们提出了一种渐进式知识转移策略以确保全面的知识迁移。这一策略从模仿蒸馏开始,在这一步骤中,我们通过最小化输出分布间的Kullback-Leibler(KL)散度使学生模型能够仿真教师网络的理解能力。随后,我们引入了基于直接偏好优化(DPO)的偏好蒸馏,其中的关键在于将l-MLLM作为参照模型。在这一阶段,s-MLLM辨别优劣样本的能力显著超越了l-MLLM,致使产生了超越其教师特别是在幻觉基准上的更优秀学生。广泛的实验表明,LLaVA-MoD在多种多模态基准上均胜过现有模型,同时保持最少的激活参数和低计算成本。引人注目的是,仅具备2B激活参数的LLaVA-MoD,在使用了0.3%的训练数据以及相对低的可训练参数(占总参数量的23%)的情况下平均超出Qwen-VL-Chat-7B8.8%,这些结果凸显了LLaVA-MoD从其教师模型中有效蒸馏全面知识的能力,为更高效MLLM的发展架设了一条道路。该代码将于https://github.com/shufangxun/LLaVA-MoD上发布。

1 Introduction

    利用大型语言模型(LLMs)(Achiam 等,2023;Bai 等,2023a;Jiang 等,2024;Team 等,2023;Touvron 等,2023a;b;Dubey 等,2024)的高级指令遵循和推理能力,多模态大型语言模型(MLLMs)(Bai 等,2023b;Liu 等,2024;Lin 等,2024b;Li 等,2023b;Chen 等,2023b;Shu 等,2023;Lu 等,2024)通常集成了视觉编码器(Caron 等,2021;Radford 等,2021;Liu 等,2022)和大型语言模型,在各种视觉和跨模态任务上取得了有希望的成果,如图像标注和视觉问答。MLLMs 的特征是庞大的模型大小和广泛的数据集训练,这些对提升性能起了重要作用,但同时也要求大量的计算资源。比如,LLaVA-NeXT(Li 等,2024a)的最大版本使用 Qwen-1.5-110B(Yang 等,2024)作为语言模型,并需要 128 台 H800 GPU 训练 18 小时。此外,MLLMs 因其高内存和计算需求而在部署方面有挑战性。比如有着大量参数的模型,经常需要高级硬件并且展现出较慢的推理速度,这大大阻碍了它们在现实世界中的应用,比如移动设备上。因此,开发能平衡性能与效率的 MLLMs 已经成为关键的研究焦点。

Image

图 1:训练成本与性能的比较。LLaVA-MoD 在显著降低训练成本的情况下,性能达到先进 MLLMs 的水平,在同时大幅度超越当前小规模 MLLMs 的表现。

   

 关于小规模多模态大语言模型(s-MLLM)(周等,2024a;元等,2023;邵等,2024;何等,2024;楚等,2023;2024;姚等,2024)的先前工作主要集中在制定数据收集(舒曼等,2021;2022;朱等,2024;阿瓦达拉等,2024;加德雷等,2024; 陈等,2023a)和过滤协议(许等,2023;范等,2024;张等,2023;李等,2024b; 阮等,2024)上,以确保高质量的训练数据。虽然这类高质量的数据帮助 s-MLLM 缩小了与大型模型之间的性能差距,但其效率仍然受到模型容量和高质量数据可获得性的限制。随着开源 MLLMs 的出现,一种直观的策略来源于传统深度学习任务:利用大规模 MLLMs(l-MLLM)作为教师,通过知识蒸馏(KD)(辛顿等,2015)来改进 s-MLLM 的训练。知识蒸馏促进了小型模型稳定且高效地与教师模型输出分布对齐的训练过程。然而,在 MLLMs 中将 KD 作为一种模型缩减技术的应用尚未被广泛探索。要开发一个有效的 MLLM 蒸馏框架,我们考虑了两个主要挑战。第一个挑战在于设计一种轻量级学生 MLLMs 架构,保留强大的学习和表达能力,使它能有效地吸收教师 MLLMs 中嵌入的复杂知识。第二个挑战是如何有效且全面地将这种知识从教师 MLLMs 转移到学生 MLLMs。

    为了应对这两个挑战,我们提出了 LLaVA-MoD1,这是通过混合专家(MoE)知识蒸馏来训练 s-MLLM 模仿 l-MLLM 行为的有效框架。

    对于第一个挑战——设计轻量级的 s-MLLM 构造——一个直觉上的方法可能是减少 l-MLLM 中基础语言模型的规模以创建更小的网络。然而,直接减少网络参数显著损害了模型的表现能力,使其在处理复杂的多模态理解任务时变得不那么有效。受最近稀疏 MoE(林等,2024a;戴等,2024; 江等,2024;沈等,2023)在序列建模中成功应用的启发,我们将在密集 s-MLLM 中融入一个稀疏 MoE结构。这种方法力求在规模减少的同时保留模型捕捉和表征复杂多模态信息的能力以进行蒸馏。具体而言,我们通过给 s-MLLM 配备多个前馈网络(FFNs)和线性门控机制来增强它,在语言模型 LLM 中。每个 FFN 作为专家,从 l-MLLM 捕捉精细知识,而门控则选择最擅长的 k 名专家以促进最优的知识转移路径。

    为了解决第二个挑战,我们提出了一种渐进蒸馏策略来实现有效的知识转移。这一过程首先通过一个可学习适配器将视觉编码器与 LLM 对齐,以初始化密集学生 MLLM。之后,我们采用两个连续的蒸馏阶段,在这些阶段中,学生模型从模仿和逼近教师MLLM发展至最终超越它:模拟蒸馏. 此阶段分为两步,即,密集到致密和密集到稀疏蒸馏。在密集到致密蒸馏阶段,我们使用标准的知识蒸馏损失来使初始化的密集s-MLLM与教师模型之间的输出logits分布对齐,利用通用的标题标注和对话数据集。接下来,我们转向密集到稀疏蒸馏,在这里我们将密集学生MLLM通过集成MoE转换为一个稀疏模型,并然后使用广泛的任务和数据集将知识从教师MLLM蒸馏到这个稀疏学生模型中。偏好蒸馏. 在这一阶段,教师模型提供了关于何为“好”与“坏”的样本的知识,为学生模型建立了基础的参照系。学生MLLM利用这一知识调整其概率分布,确保好的样本拥有比教师模型更高的概率,而差的样本被赋予较低的概率。这个流程通过提高其判断力超越教师模型的能力来增强学生模型减轻幻觉的能力。如图1所示,在保持极低激活参数和计算资源的情况下,LLaVA-MoD在各种多模态基准上表现出令人印象深刻的表现。例如,LLaVA-MoD-2B在这些基准上的平均性能超过Qwen-VL-Chat-7B 8.8%,仅使用0.3%的训练数据和23%可训练参数。此外,在多个幻觉基准中,它与基于RLHF的方法在7B和13B参数上表现相当。具体而言,LLaVA-MoD-2B在Object HalBench上的响应级幻觉率方面比RLHF-V(于等人,2024a)高出了8.2%,在提及级幻觉率上高出21.3%。

    这些令人瞩目的成果证明了我们提出的MoD框架在从l-MLLM向s-MLLM转移知识方面的有效性。

2 Related Work

多模态大型语言模型

大型语言模型(LLM)的兴起极大地推动了自然语言处理领域的发展。将视觉信息与LLM连接起来,以增强它们对多模态输入的理解,对于促进视觉和语言的统一理解至关重要。CLIP(Radford等人,2021年)是第一个通过对比学习目标将视觉和文本信息对齐到一个统一嵌入空间的方法。BLIP-2(Li等人,2023b)利用多种预训练任务分别训练视觉和文本流,并增加额外的中间结构以适应视觉特征到LLM的需求。Flamingo(Alayrac等人,2022年)在LLM中加入额外的交叉注意力模块来处理图像序列与文本的任意交错。近来,像LLaVA(Liu等人,2024年)和MiniGPT-4(Zhu等人,2023)这样的模型使用线性投影层将图像特征映射到文字空间,并通过视觉指令调整增强模型的指令跟随能力。此外,一些工作聚焦于更强的视觉编码器。Intern-VL(Chen等人,2023b)利用更大规模的视觉编码器来填补与大规模语言模型之间的差距,而Mini-Gemini(Li等人,2024c)引入额外的高分辨率精修视觉编码器以增强视觉标记。Qwen-VL(Bai等人,2023b),VisionLLM(Wang等人,2023c)等目标在于赋予模型更强的细粒度视觉理解能力,如定位和区域理解力。不同于这些方法,我们的方法并不强调通过扩大模型来增强多模态能力。

    相反,我们采用蒸馏法将大型模型的能力压缩到更小、更稀疏的MoE(Mixture of Experts)架构中,从而提高计算与存储效率。知识蒸馏。大型语言模型具备强大的能力,但它们庞大的规模和高推理成本限制了在低资源环境中的应用。

知识蒸馏

(Hinton等人,2015年)使用大模型作为教师向小的学徒模型转移其高级知识,这在压缩模型规模并使较小模型能够自我提升过程中起关键作用。一些工作采用了额外的设计以使蒸馏过程更适合LLM。MiniLLM(Gu等人,2023年)最小化逆KL散度(Kullback–Leibler divergence),以防学生过度估计教师分布中的低概率区域,而GKD(Agarwal等人,2023年)引入了广义知识蒸馏,并促进蒸馏与RLHF(强化学习从人类反馈得到)的融合。

Image

图 2:LLaVA-MoD 的渐进式蒸馏。

专家混合体 

初始时,雅各布等人(Jacobs 等人,1991 年)引入了专家的混合体 (MoE) 架构,通过利用独立专家在整个样例中的表现来提升模型性能。近年来,随着 transformer 架构的兴起,众多研究将 transformer 层扩展以纳入 MoE。在基于 transformer 的 MoE 架构中,通常用稀疏激活的专家替换前馈神经网络 (FFN) 层,使用可训练的 Top-k 门控策略(Lepikhin 等人,2020;Fedus 等人,2022),从而有效增加了模型容量的同时保持较低的计算开销。此外,为了进一步减少训练成本,采用了稀疏循环利用方法(Komatsuzaki 等人,2022 年),该方法使用来自精心训练的密集型模型的参数初始化专家参数。目前,MoE 架构不仅在预训语言模型中得到了广泛应用(Jiang 等人,2024;Dai 等人,2024) 也在视觉模型和视觉-语言模型中得到应用 (Lin 等人,2024a;Shen 等人,2023)。

我们的方法将 MoE 和知识蒸馏技术相结合,为稀疏训练提供了更强的信号,显著降低了与稀疏模型相关的培训成本。

3 Method

我们引入了LLaVA-MoD,这是一种使用专家混合(MoE)知识蒸馏构建高效多模态语言模型(MLLM)的创新框架。我们的框架主要包括两个部分:

(a). s-MLLM* 的架构设计:如图 3 所示,我们采用稀疏 MoE 框架设计 s-MLLM,以增强获取专业领域知识的能力。

(b).蒸馏机制:我们设计了一个渐进式的蒸馏机制,如图 2 所示,将知识从 l-MLLM 转移至稀疏的 s-MLLM。这一过程包含两个阶段:首先是模仿蒸馏,然后是偏好蒸馏。接下来,我们将从这两个部分详细介绍 LLaVA-MoD。

Image

图 3:LLaVA-MoD 的密集到稀疏架构。LLaVA-MoD 的架构包含三个组件:VL适配器、视觉编码器和 LLM。VL 适配器和视觉编码器保持不变,而 LLM 则从密集型升级为稀疏型。

s-MLLM定义。

如图3所示,s-MLLM的基本架构由三个主要组件组成:一个视觉编码器、一个大型语言模型(LLM)和一个视听说(VL)适配器。给定一个多模态指令对话(x, y),我们将我们的s-MLLM处理响应y定义如下:

Image

其中(x_v)是输入图像,而(x_i)是文本指令。输入图像被调整大小至336×336并分割成576个图像token,每个size为14×14。ViT(\chi)是CLIP视觉编码器,使用参数(\chi)从(x_v)中首先抽取图像特征。Proj(\omega)是视听说适配器,使用参数(\omega),作为视觉标记器来将图像特征与词嵌入空间对齐。LLM(\phi)是一个大型语言模型,使用参数(\phi),它根据(x = [x_v, x_i])的多模态token生成响应y。

专家混合。

构建我们的s-MLLM的原则是在不修改视觉编码器视听说适配器的情况下缩减LLM的规模。为了实现这一缩小目标,我们通过引入MoE架构将密集的s-MLLM稀疏化。具体而言,图3展示了过程,在那里我们将稀疏升级技术(Komatsuzaki等人,2022年)应用于复制N个前馈网络(FFNs)作为专家模块。此外,我们引入了一个线性层作为路由器,通过预测专家分配的概率动态激活适当的专家。对于序列中的每个token x,我们首先计算N个专家的路由值:

Image

其中 Wr 表示路由器的权重矩阵,r 中的每个元素 ri 代表激活第 i 个专家的概率。之后,我们应用 Top-k 策略来确定具有最高的 k 个路由值的激活专家:

Image

其中,非激活专家的路由值设置为零,实际上排除了它们对最终输出的贡献。输出 ( y ) 是通过聚合被激活专家的贡献来计算的,这些贡献由对应的路由值加权。

3.2 Progressive Distillation

我们的渐进式蒸馏包含两个独立的阶段,即模仿蒸馏(图2 (a))偏好蒸馏(图2 (b))。在模仿蒸馏阶段,学生多模态语言模型(\pi_S)模仿老师多模态语言模型(\pi_T)的一般知识和特定知识。在偏好蒸馏阶段,学生多模态语言模型获得老师多模态语言模型的偏好知识,进一步精炼其输出并减少幻觉。我们使用预训练的语言线性混合模型作为老师的多模态语言模型,在整个蒸馏过程中保持不变。老师和学生的多模态语言模型同属一个LLM家族,确保了词汇空间的一致性,这对于学生多模态语言模型精确地模仿老师多模态语言模型至关重要。为简化起见,我们将学生记作(\pi_S),将老师记作(\pi_T)。

- 初始化。

在蒸馏之前,我们首先通过可学习的适配器对视觉编码器和LLM进行对齐,旨在获得一个良好初始化的密集型学生多模态语言模型。由于其预训练参数已经捕捉到了丰富的视觉和语言知识,保持了(\phi^{LM})和(\chi^{ViT})冻结状态不变;仅优化(\omega^{Proj}),以弥合视觉与语言领域之间的差距。对于初始化阶段,我们利用一个广泛使用且经过精心整理的数据集中的常见图像-字幕对,该数据集涵盖了广泛的主题和视觉实体。训练的目标是最小化生成的令牌的交叉熵。目标函数定义为:

Image

其中,πS(yk | y<k, x) 表示在给定x和先前序列y<k = (y1, y2, . . . , yk−1)的条件下预测标记yk的概率。

- 模仿蒸馏法。

我们将教师MLLM的全面知识分解为一般性和专业性两方面,并分别进行密集对密集蒸馏(dense-to-dense distillation)和密集对稀疏蒸馏(dense-to-sparse distillation),以此将这些知识转移到学生MLLM上。

a) 密集对密集蒸馏。在这个阶段,我们的目标是再现教师MLLM的一般性知识。首先获得一般性知识至关重要,因为它为各领域的广泛基础和平共通的理解奠定了基础,使学生MLLM能够发展出适用于多种情况的基本框架。这个基础支撑着更全面和灵活的理解,在进入专业化任务之前提供支持。为此,我们保持ViTχ冻结状态,并同时优化LLMϕ和Projω,其可训练参数为θ = {*ω, ϕ*}。我们利用通用的图像-标题对和对话数据集。训练目标是最小化密集型学生MLLM与教师MLLM输出 logits 的Kullback-Leibler散度(KLD)。目标函数定义如下:

Image

其中,V 表示词汇表,而π<S(yk | y<<k, x) 和 π<T(yk | y<<k, x) 分别表示学生模型和教师模型预测的词语的概率。

b). 从密集到稀疏的知识蒸馏。在这个阶段,我们将重点转移到传授教师多语言预训练模型 (MLLM) 的专业技能上,使学生 MLLM 能够获得高阶能力和在各种任务中实现更优表现。然而,直接学习这种以密集形式存在的知识可能导致效率低下和困难。因此,我们通过引入多个专家来稀疏化密集的学生 MLLM。如第3.1节所述,在 LLMϕ 内复制 N 个前馈网络 (FFN),并加入多层感知机 (MLP) 层作为路由器,共同构成了具有参数 ϕe 的专家。这种稀疏架构使学生 MLLM 能够针对不同任务和输入选择性激活最相关的专家,从而在模仿教师专业知识方面获得了显著优势。在训练过程中,我们利用多任务数据,只更新专家和适配器。我们采用 Top-k 路由策略来选择专家。可训练的参数是 θ = {ω, ϕe}。与前一阶段相似,我们同样以 KLD 作为训练目标函数。此外,我们也包含标准的下一次词语预测目标,即:最小化学生生成的词元交叉熵损失,这能从真实数据中引入监督,减少教师模型中存在的偏差。最终的目标函数定义为:

Image

- 偏好蒸馏。在这个阶段,我们的目标是从教师MLLM中提取偏好知识,引导学生MLLM生成不仅准确而且合理的响应,这对于减少幻觉至关重要。在训练过程中,我们有效利用了偏好数据,这些数据包含了对相同提示x精心配对的正面回应y+和负面回应y−。我们的偏好蒸馏策略受到最近直接偏好优化(DPO)(Rafailov等人, 2024)进展的启发,它绕过了训练奖励模型的需求,而是直接在离线偏好数据集上进行训练。我们关键的洞见是,在蒸馏过程中将教师MLLM视为参考模型。在整个训练中,师生模型区分正面从负面回应中。其次,学生模型的目标是通过给正面回应分配更高的概率,而给负面回应分配更低的概率来超越教师模型。我们只训练学生模型中的专家混合及 VL 适配器,并采用Top-k 路由策略选择专家。可训练的参数为 θ = {*ω, ϕ<sub>e</sub>}。目标函数定义如下:

Image

其中,πS(y+|x)和πS(y−|x)分别表示学生模型的正响应和负响应的概率,而πT(y+|x)和πT(y−|x)则分别是教师模型的相应概率。

4 Experiments

实现细节。我们采用了广为人知的“ViT-MLP-LLM”架构来证明LLaVA-MoD的有效性。具体而言,使用预训练的CLIP-ViT-L/14作为视觉编码器,并采用两层MLP(多层感知机)作为适配器用在学生模型和教师模型中。教师与学生模型都利用了Qwen-1.5和Qwen-2系列来构建其基础模型。具体来说,教师模型采用的是包含70亿个参数的配置,而学生模型则分别使用了18亿和5亿个参数数量构造而成。表1展示了在常见多模态基准测试上,教师MLLM的表现。

Image

正如第3.2节中所述,训练过程包括模仿蒸馏和偏好蒸馏,每个阶段都有特定的设置。在初始化时,我们首先冻结视觉编码器和LLM,同时优化VL适配器以将图像令牌与词嵌入空间对齐。这个阶段使用交叉熵损失,批大小为512,学习率为1e-4。在模仿蒸馏阶段,视觉编码器保持冻结状态,而LLM和VL适配器协同优化,以密集到密集的方式从教师MLLM中蒸馏一般知识。接着,首先将LLM中的FFN转换为稀疏架构,带有混合的FFN专家与VL适配器协同优化,以密集转稀疏的方式从教师MLLM中蒸馏专门知识。这个阶段使用KL散度损失,并添加交叉熵损失用于密集至稀疏蒸馏。批大小为256,学习率调整到2e-5。在偏好蒸馏阶段,模型继承自模仿蒸馏。视觉编码器保持冻结状态,混合FFN专家与VL适配器协同优化,以从教师MLLM中蒸馏偏好知识。这个阶段使用DPO损失来优化学生对正面回应的概率大于教师且学生对负面回应的概率低于教师。批大小为256,学习率调整到2e-6。在所有阶段中,我们采用adam优化器(Diederik, 2014),且在每16个NVIDIA A100 GPU上进行一周期的训练,总共大约需要960小时GPU时间。(溜了溜了,玩不起。。)每个训练阶段的详细超参数在附录A.2中有说明。

关于训练数据集。训练数据包含来自开源数据集的5M样本,每个训练阶段使用不同的数据集。初始化期间,从LLaVA-1.5预训练数据集中使用0.6M通用标题样本以连接视觉和语言模态之间的差距。在模仿蒸馏中,2.4M通用标题与对话样本用于从教师MLLM蒸馏一般知识,而包含VQA、文档、科学和OCR的1.4M多任务数据则用于从教师MLLM蒸馏专门知识。对于偏好蒸馏阶段,0.8M偏好数据样本来转移从教师那儿得来的偏好知识。每个训练阶段使用的数据集详细情况在附录A.1中有详细说明。

评估基准。我们在MME(Fu et al., 2023)、MMB(Liu et al., 2023c)和MMBCN上进行实验,这些涵盖了各种子任务,使我们能够全面地评估多模态理解和推理能力。此外,在广泛的VQA任务谱系中运行实验证明其能力,包括通用VQA、文本导向的VQA以及科学VQA。具体地说,对于通用VQA任务,我们用VizWiz(Gurari et al., 2018)和GQA(Hudson & Manning, 2019)来测试一般的视觉理解与关系推理能力。

TextVQA(Singh et al., 2019)用于文本导向的VQA任务,集中于对图像中细粒度视觉识别与文本理解。ScienceQA(Lu et al., 2022b)则用来衡量科学知识技能。此外,我们在如POPE(Li et al., 2023c)、Object HalBench(Yu et al., 2024a)和MMHal-Bench(Sun et al., 2023),以及AMBER(Wang et al., 2023b)等多个幻觉评估标准上进行了实验。

4.2 Main Results

在这一部分,我们进行了关于LLaVA-MoD的实验,以突出其在两个方面:性能和效率上的优势。对于性能,我们评估了面向理解的基准测试(表2)以及面向幻觉的基准测试(表3)。对于效率,我们在数据样例和模型大小上进行比较。表2:与最先进的多模态语言模型(MLLMs)在常用的多模态MMLM基准上的对比。#Sample: 训练数据样本数。#Param: 可训练参数。SQAI: 科学问答测试,VQAT: TextVQA验证集,MME: MME基准测试,统一至百分比,MMB: MMBench开发集,MMBCN: MMBench-Chinese开发集。对于模型大小1B/2B的最佳结果以粗体显示,次佳结果则被下划线标出。我们的LLaVA-MoD在这两个方面都达到了最佳的平均成绩。

Image

4.2.1 Comprehension-Oriented Benchmarks

如表2所示,LLaVA-MoD在理解导向的基准测试中展现出卓越性能。它在2B规模和1B规模模型中的平均结果达到了最先进(state-of-the-art, SOTA)水平。具体而言,2B规模的LLaVA-MoD超过了Mini-Gemini-2B(Li等人,2024c),领先8.1%,同时使用了更低的图像分辨率(336对比768)。1B规模的LLaVA-MoD以较少的数据样本(5M对比15M)超越了SPHINX-Tiny(Gao等人,2024),领先13.2%。此外,LLaVA-MoD-2B与大规模MLLM性能相匹敌甚至超越。具体来说,2B规模的LLaVA-MoD超越了Qwen-VL-Chat-7B(Bai等人,2023b)8.8%,并且与VILA-3B(Lin等人,2024b)和MiniCPM-V(Yao等人,2024)的性能相当。这些结果彰显出我们的方法有效地高效训练小规模MLLMs,通过蒸馏稀疏MoE架构。

表3:在幻觉基准测试中与最先进的MLLMs作比较。我们将LLaVA-MoD与基于SFT的作品和基于RLHF的作品进行比较。Hall: 幻觉率 Resp: 响应级幻觉率 Ment: 提及级幻觉率。最佳结果为粗体展示,次佳结果为下划线标出。

Image

4.2.2 Hallucination-Oriented Benchmarks

如表3所示,LLaVA-MoD在减少幻觉方面表现出显著的效果,甚至超越了其教师模型。这可以归因于两个方面:首先,通过为正面回答赋予更高的概率,偏好蒸馏鼓励学生模型专注于提供正确且相关的信息。其次,通过为负面回答赋予较低的概率,偏好蒸馏抑制错误或无根据的信息。以教师模型作为参照调整回答概率,这种优化使学生模型能更准确可靠地处理幻觉问题,从而超越了教师模型。

此外,LLaVA-MoD不仅__于类似的小规模模型(姚等, 2024; 李等, 2024c; 何等, 2024),甚至在近期基于强化学习人类反馈RLHF的模型竞争中___诸如孙等(2023), 周等(2024b), 黄等(2024), 冷等(2024)周 等(2023),和赵等(2023b)的对手。以Object HalBench为例,LLaVA-MoD在回答级别的幻觉发生率上相比RLHF-V(余等, 2024a)领先8.2%,提及级别更达到了21.3个百分点的优势。这证明将教师模型用作偏好的传递式教学参照物是一项充满挑战却值得的任务,它激励了学生模型学会如何有效规避幻觉。

如表中所示的,LLaVA-MoD在抵御幻象行为上展现出惊人的能力,甚至_____其导师;得益于两点:首先,对积极反应赋予更高几率的原则加强了学生掌握事实与相关资讯的能力;其次,通过降低消极回应概率来防止不正确或无根据的内容出现。参照导师模型调整回答权重的策略极大地优化了学生应对此类问题的方式,从而使其表现显著超越指导老师。

另外,LLaVA-MoD不仅_____同类较小模型(姚等, 2024; 李等, 2024c; 何等, 2024),还在与近期基于强化学习及人工反馈RLHF框架的其他模型对比下展现优势,超越了诸如孙等(2023), 周等(2024b), 黄等(2024), 冷等 (2024),周 等(2023)和赵等(2023b)的作品。以Object HalBench数据集为例,LLaVA-MoD在响应层面的幻象占比上领先RLHF-V(余等, 2024a)8.2%,提及级别的差距更是高达21.3%。这证明采用导师模型作为偏好传递的参考点是一个虽具挑战但成果显著的方法,能够引导学生模型更有效地掌握避免产生幻觉的方法。

如上所述,表中清楚地展示出,LLaVA-MoD在处理错觉问题上有着卓越表现,甚至____于其导师模组。得益于两点关键原因:首先,对正面回应分配更高概率的机制确保学会正确且具备关联性的资料;再者,透过降低反面响应概率抑制错误或无实证支持情况。将指导教师视为参照点以微调反馈机制的做法极大提高了学习精准度与稳定性,使学生模组能更准确地应对幻觉现象而超越导师。

另外,在同等级别的小规模模型比如(姚等, 2024; 李等, 2024c; 何等,2024)的对照下,以及与近期基于强化学习人类反馈RLHF技术的相关研究对比中,LLaVA-MoD均展现出____的表现,领先了诸如孙等(2023), 周等(2024b),黄等(2024),冷等(2024),周 等(2023)以及 赵等 (2023b)。以Object HalBench为实例,LLaVA-MoD在回答级别的幻觉出现率上超越了RLHF-V(余等, 2024a)达到8.2%的提升,在提及层面上更是高出21.3%,有力证明将指导模型充当偏好传递标准所具有的潜力与成效在于激励学生模组掌握避免产生幻觉的有效策略。

在如表所示的情况下,LLaVA-MoD展示了抑制幻象的强大效能,甚至____于它的师傅—导师模型。这归功于两个核心因素:首先它能够通过偏向分配给实际有效反馈更高概率的途径来优化输出质量;其次以降低对不实信息赋予比重作为制约手段来强化真实性评估。将指导老师看做对照基准进行概率调整的做法,提升了学生模组辨明正确与否的能力并使其在处理相似问题时超越了导师本身。

除此之外,在同类小型模式(姚等, 2024; 李等, 2024c; 何等, 2024)的评估下,以及最近基于强化学习人类反馈RLHF策略下的其他模型较量中,LLaVA-MoD展现出了____的竞争力和超越力。相较于孙等(2023),周等(2024b),黄等(2024),冷等 (2024)及 赵 等(2023b)的工作,明显占据优势地位。以Object HalBench的比较为例,在回应级别的幻象发生比上LLaVA-MoD相较于RLHF-V(余等, 2024a)高出8.2%;而在提及层面的差距为21.3%,这再次凸显了将引导者作为偏好传递依据的价值之处在于它促进了学习者模组对避免幻象生成技巧的有效吸纳。

4.2.3 Efficiency Comparison

我们比较了LLaVA-MoD与其他最近的最先进(SOTA)多模态大语言模型(MLLMs)在训练数据和可训练参数方面的效率。如表2所示,拥有2B规模的LLaVA-MoD仅需5M样本,在训练与推理过程中只激活其总参数量2.2B的部分子集。它表明,在分别使用仅为Qwen-VL-Chat模型的23%可训练参数和0.3%训练数据样本的情况下,LLaVA-MoD实现了高出8.8%的性能。此外,与小型号MiniCPM-V(具有2.8B可训练参数)相比,LLaVA-MoD在只使用1.6%的数据样本和拥有2B个参数的情况下,依然展现出更优的性能,这突显了其高效的特性。综上所述,LLaVA-MoD能够实现对数据、参数以及计算资源更加高效地利用。这不仅带来了更快捷的训练与推理过程,同时也为在资源受限环境下部署高性能模型提供了一种实用且可行的解决方案。

4.3 Ablation Study

消融实验略

5 Conclusion

在本文中,我们引入了 LLAVA-MoD,这是一种创新框架,通过从大规模模型进行知识蒸馏来高效训练小型多模态语言模型。它解决了 MLLM 蒸馏中的两大核心挑战:通过 MoE 设计增强 s-MLLM 架构以平衡效率和表达力,并实施渐进式知识转移策略。大量实验表明,LLAVA-MoD 在低激活参数和计算成本下超越了现有模型。值得注意的是,在仅使用 20 亿激活参数、0.3% 的训练数据和 23% 可训练参数的情况下,其性能比 Qwen-VL-Chat-7B 高出 8.8%,凸显了它在知识蒸馏方面的有效性,并推动更高效的多模态语言模型发展。

6 Limitations

LLaVA-MoD 要求师生模型都属于同一大家族的大型语言模型 (LLM),以确保词汇空间的一致性。未来的研究可以探索涉及异构模型家族的蒸馏技术。此外,需要加载师生两个模型导致了大量内存使用。为了实现更高效的蒸馏,在训练期间只加载学生模型而预先提取教师模型的输出是一种可行的解决方案。

### 回答1: ARXIV GR-QC 数据集是一个存放有关引力理论和量子计算的学术论文的数据集,它来自 ArXiv 学术论文库。要下载这个数据集,您可以在 ArXiv 网站上进行搜索,并使用相应的筛选器将结果限制在 GR-QC 分类下。您可以通过点击论文标题并使用浏览器的“另存为”功能来下载每篇论文。 此外,您还可以使用 ArXiv API 来访问和下载数据集。API 提供了一组程序接口,您可以使用它来搜索论文、获取论文摘要和元数据等。有关如何使用 ArXiv API 的更多信息,请参阅 ArXiv API 文档。 ### 回答2: ARXIV GR-QC 数据集是一个用于研究和分析的科学论文数据库。该数据库主要收集了与广义相对论(GR)和量子力学(QC)相关的论文。要下载这个数据集,首先需要访问 ARXIV GR-QC 数据集的官方网站。 在该网站上,可以找到数据集的下载链接或相关的信息。点击相应的链接,可以选择下载整个数据集或特定的部分。下载的文件通常是以压缩包的形式提供,需要用解压软件将其解压后得到数据文件。 一旦下载了数据集,就可以开始使用它进行分析和研究。数据集中包含了很多科学论文的元数据(如标题、作者、摘要等),并且可能还包含全文或相关的研究数据。可以使用各种数据分析工具和技术来探索和提取数据集中的信息。 ARXIV GR-QC 数据集的下载对于科研人员、学生和其他对广义相对论和量子力学感兴趣的人非常有用。这个数据集可以帮助研究者更好地了解最新的研究进展,探索新的研究领域,并且可以为他们的研究提供重要的参考和支持。 总的来说,ARXIV GR-QC 数据集是一个重要的资源,可以通过官方网站下载。通过使用该数据集,研究者可以更加深入地了解广义相对论和量子力学领域的最新动态,并进行进一步的分析和研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值