边缘端也可以跑大模型 | 一文总结高效多模态大模型的时间线、高效结构以及训练策略

最新推荐文章于 2025-04-10 19:03:17 发布

AI大模型学习不迷路

最新推荐文章于 2025-04-10 19:03:17 发布

阅读量1k

点赞数 21

文章标签：人工智能自然语言处理 LLM 大模型应用大语言模型大模型语言模型

本文链接：https://blog.csdn.net/Z4400840/article/details/144882105

版权

前言过去一年，多模态大型语言模型（MLLMs）在视觉问答、视觉理解和推理等任务上表现出了显著的性能。然而，庞大的模型大小和高昂的训练和推理成本阻碍了MLLMs在学术界和工业界的广泛应用。因此，研究高效和轻量级的MLLMs具有巨大的潜力，尤其是在边缘计算场景中。在本调查中对高效MLLMs的现状进行了全面而系统的回顾。具体而言，作者总结了代表性高效MLLMs的时间线、高效结构和策略的研究状态以及应用。最后，作者讨论了当前高效MLLM研究的局限性，并探讨了有前景的未来方向。

GitHub：https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey

1 Introduction

大型预训练是人工智能（AI）的主导方法，已在许多任务上使通用模型如大型语言和多模态模型优于专门的深度学习模型。大型语言模型（LLM）的显著能力激发了将它们与其他基于模态的模型相结合以增强多模态能力的努力。这一概念得到了专有模型如OpenAI的GPT-4V 和Google的Gemini 的显著成功支持。

因此，多模态大型语言模型（MLLMs）已经出现，包括mPLUG-Owl系列，InternVL，EMU，LLaVA，InstructBLIP，MiniGPT-v2，和MiniGPT-4。这些模型通过有效利用每个模态的预训练知识，避免了从头开始训练的计算成本。MLLMs继承了LLM的认知能力，展现出许多显著的特征，如强大的语言生成和迁移学习能力。此外，通过与其他基于模态的模型建立强大的表示联系和对齐，MLLMs可以处理来自多个模态的输入，从而显著扩大了其应用范围。

MLLM的成功很大程度上归因于扩展定律：AI模型的性能随着投入更多资源（如数据、计算能力或模型大小）而提高。然而，可扩展性以高资源需求为代价，这阻碍了大型模型的开发和部署。例如，基于NVIDIA A100 GPU的MiniGPT-v2的训练需要超过800个GPU小时。这给研究行人带来了巨大的费用负担。除了训练，推理在MLLM中的资源消耗中占主导地位。

考虑一个典型的场景，模型输入是一个336x336像素的图像和长度为40个Token的文本提示，使用LaVA-1.5和Vicuna-13B LLM Backbone 进行推理需要18.2T FLOPS和41.6G的内存使用。大规模模型的资源密集性也引发了关于去中心化和隐私保护的担忧，因为当前的主流MLLM，如GPT-4V和Gemini，由几家主导企业控制并运行在云端。正如上述实验所示，即使是开源MLLM，在边缘设备上运行它们的高计算资源需求也使其难以在边缘设备上运行。这进一步加剧了确保公平获取和保护用户隐私的挑战。

鉴于这些挑战，对高效MLLM的研究越来越受到关注。这些努力的主要目标是减少MLLM的资源消耗，同时扩大其适用性，同时尽量减少性能下降。高效MLLM的研究始于用轻量级对应物替换大型语言模型，并执行典型的视觉指令调优。

后续研究进一步增强了能力，并扩展了使用案例，主要通过以下方式：

引入了更轻巧的架构，强调效率，旨在减少参数数量或计算复杂度；
开发了更专门的部分，专注于针对高级架构或赋予特定属性（如局部性）进行效率优化；
提供了对资源敏感任务的支持，一些工作利用视觉Token压缩来提高效率，使MLLM能力可以在资源密集型任务（如高分辨率图像和视频理解）中实现转移。

在这项调查中，作者旨在全面介绍高效MLLM领域最近的发展，如图2所示。作者将文献组织在一个包括六个主要类别的分类法中，涵盖高效MLLM的各个方面，包括架构，高效视觉，高效LLM，训练，数据和基准，以及应用。

架构关注于由高效技术开发的用于降低计算成本的MLLM框架。架构由多个基于模态的基本模型组成，表现出与单模态模型不同的特性，从而推动了新技术的发展。

高效视觉（Efficient Vision）研究优化高效的视觉特征提取策略，强调在保持准确性的同时提高效率的方法。它关注将高质量视觉数据集成到有效的跨模态理解中。

高效LLM探索了提高语言模型计算效率和可扩展性的策略。它研究了模型复杂性和性能之间的权衡，同时提出了在这些竞争因素之间取得平衡的有前途的途径。

训练调查了在高效MLLM开发中至关重要的训练方法的景观。它解决了与预训练阶段、指令调优阶段和最先进结果的整体训练策略相关的挑战。

数据集和基准评估用于多模态语言模型评估的数据集和基准的效率。它评估了数据集大小、复杂性和计算成本之间的权衡，同时提倡开发优先考虑效率和与实际应用相关性的基准。

应用部分探讨了高效MLLM在各个领域的实际应用，强调了性能与计算成本之间的平衡。通过解决资源密集型任务，如高分辨率图像理解和医疗问题解答，这一部分突显了高效MLLM扩展其应用范围并有助于实际问题解决的潜力。

总结而言，这项调查深入探讨了这些研究努力，探索使多模态语言模型（MLLMs）更资源高效的多种策略。作者回顾了高效多模态语言模型的开发历史，提供了高效多模态语言模型的策略分类，并全面比较了现有高效多模态语言模型的性能。通过这一探索，作者希望提供对当前最先进状态的全面理解，从而阐明这个新兴领域的复杂细微之处。此外，这项调查充当了路线图，突显了未来研究的潜在方向，并促进了对高效多模态语言模型领域面临的挑战和机遇的深入理解。

2 Architecture

遵循标准MLLM框架，高效的MLLMs可以分为三个主要模块：

一个视觉编码器，用于接收和处理视觉输入
一个预训练的语言模型，用于管理接收到的多模态信号并执行推理
一个视觉语言投影器，作为连接视觉和语言的桥梁

为了提高通用MLLMs的效率，主要的优化策略包括处理高分辨率图像、压缩视觉Token、实现高效的结构和利用紧凑的语言模型等。图3说明了架构图。

表1概述了高效MLLMs，包括基础LLM、视觉编码器、图像分辨率以及用于连接视觉和语言的投影器。这些高效的MLLMs包括：MobileVLM，LLaVA-Phi，Imp-v1，TinyLLaVA，Bunny，Gemini Nano-2，MobileVLM-v2，MoE-LLaVA-3.6B，Cobra， Mini-Gemini，Vary-toy，TinyGPT-V，SPHINX-Tiny，ALLaVA，MM1-3B，LLaVA-Gemma，Mipha-3B，VL-Mamba，MiniCPM-V2.0， DeepSeek-VL，KarmaVLM，moondream2。在本节中，作者将依次详细介绍这三个模块以及其他高效的组件。

2.1 Vision Encoder

将输入图像作为输入，视觉编码器将原始图像压缩为更紧凑的块特征，如下所示：

与主流的MLLM实践相一致，高效的MLLM选择语义与文本对齐的预训练模型，由CLIP表示。这种方法有助于视觉输入和文本输入的特征空间之间的更好对齐。由于视觉编码器在MLLM参数中占比较小，因此轻量级优化的优势不如语言模型明显。因此，高效的MLLM通常继续使用在大型MLLM中广泛使用的视觉编码器，如表1所示。

2.1.1 Multiple Vision Encoders

BRAVE对各种具有不同归纳偏差的视觉编码器进行了深入的消融实验，以解决MLMM任务。结果表明，在不同的任务上，没有一种单一的编码器设置始终表现出色，具有不同偏差的编码器可以产生惊人的相似结果。显然，将多个视觉编码器结合在一起有助于捕捉广泛的视觉表示，从而增强模型对视觉数据的理解。Cobra将DINov2和SigLIP集成为其视觉backbone，其理由是合并DINov2的低级空间特征和SigLIP提供的语义属性将提高后续任务上的性能。SPHINX-X采用两种视觉编码器 - DINov2和CLIP-ConvNeXt。由于这些模型已经通过不同的学习方法（自监督学习与弱监督学习）和网络架构（ViT与CNN）预训练，它们自然能够提供最互补和最复杂的视觉知识。

2.1.2 轻量级视觉编码器

在实际应用中的视觉Transformer架构由于硬件和环境限制（包括处理功率和计算能力）而面临挑战。ViTamin 是一种轻量级视觉模型，专门针对视觉和语言模型设计。它从卷积茎开始，第一和第二阶段采用移动卷积块，第三阶段采用Transformer块。值得注意的是，ViTamin-XL 仅具有436M参数，其图像Net零样本准确率达到82.9%。

相比之下，EVA-E 使用了参数数量十倍于ViTamin-L的4.4B参数，实现了82.0%的准确率。只需将LLaVA的图像编码器替换为ViTamin-L，就可以在各种MLLM性能指标上建立新的标准。

2.2 视觉语言投影

视觉语言项目的投影任务是将视觉patch嵌入映射到文本特征空间：

其中表示视觉嵌入的投影。对齐的视觉特征被用作提示，与文本嵌入一起输入到语言模型中。视觉语言项目器避免了从头训练端到端多模态模型的高昂成本，并有效利用了预训练语言和视觉模型的能力。

基于[7, 54]，视觉语言项目器通常使用一种简单可学习线性投影器或多层感知器（MLP），即多个线性投影器与非线性激活函数交织，如图1所示。

注意力基于的BLIP2 引入了Q-Former，一种轻量级 Transformer ，它使用一组可学习的 Query 向量从冻结的视觉模型中提取视觉特征。由Flamingo 提出的感知重采样器，考虑在交叉注意力中使用可学习的潜在 Query 作为Q，同时将图像特征展开并与Q连接作为交叉注意力的K和V。通过这种方式，将可学习的潜在 Query 对应位置的 Transformer 输出作为视觉特征的聚合表示，从而将可变长度的视频帧特征标准化为固定大小的特征。在BRAVE中的MEQ-Former 设计了一个多编码器 Query Transformer ，将来自多个冻结视觉编码器的特征融合为一个可直接输入到冻结语言模型的通用表示。

CNN-based MobileVLMv2 提出 LDPv2，这是一个由三个部分组成的新项目：特征转换、 Token 减少和位置信息增强。通过使用点卷积层、平均池化和具有跳过的 PEG 模块，LDPv2 在提高效率、99.8% 的参数减少和比原 LDP 更快的处理速度方面取得了更好的效果。

Mamba-Based 的VL-Mamba在其视觉语言项目发射器中实现了2D视觉选择扫描（VSS）技术，从而促进了各种学习方法的融合。VSS模块主要解决了在一维顺序处理和二维非因果视觉信息之间的不同处理方法。

Hybrid Structure Honeybee 提出了两个视觉投影器，分别是C-Abstractor和D-Abstractor，它们遵循两个主要设计原则：

在视觉Token数量上提供适应性；
高效维护局部上下文。

C-Abstractor（卷积抽象器），或称为L ResNet块，专注于通过使用卷积架构有效地建模局部上下文。该结构包括L ResNet块，然后是自适应平均池化以及额外的L ResNet块，这有助于将视觉特征抽象为任何视觉Token的平方数。相反，D-Abstractor（变形注意力基础抽象器）利用变形注意力，通过参考点和采样偏移的2D坐标采样过程来维持局部上下文。

2.3 小型语言模型

预训练的小语言模型（SLM）是MLLMs的核心组件，赋予其许多卓越的能力，如零样本泛化、指令遵循和上下文学习。SLM接受包含多个模态的输入序列，并输出相应的文本序列。通常会将与SLM一起捆绑一个文本分词器，将文本提示映射到文本Token。文本Token和视觉Token作为语言模型的输入，以自回归方式输出最终响应序列：

其中表示的长度。由于 SLM 贡献了 MLLM 的绝大部分参数，因此其选择与 MLLM 的轻量级特性密切相关。与参数规模从 70 亿到数百亿不等的传统 MLLM 相比，高效的 MLLM 通常采用参数少于 30 亿的语言模型，例如微软的 phi2-2.7B和谷歌的 Gemma-2B。

在特殊数据配方上训练的 Phi-2 可以匹配在常规数据上训练的规模大 25 倍的模型的性能。Phi-3-mini可以轻松地在现代手机上本地部署，并实现与诸如 Mixtral 8x7B和 GPT-3.5 等模型相当的质量。除了利用预训练模型之外，MobileVLM缩小 LLaMA的规模，并使用开源数据集从头开始训练。具体的模型缩放比例在表 1 和表 4 中说明。

2.4 Vision Token Compression

初始研究已经强调了MLLMs在各种任务中的潜力，包括视觉问答和图像描述。然而，在需要复杂识别的任务中，MLLMs面临着相当大的挑战，包括人群计数和小型字符的OCR。直接解决这些挑战的方法是增加图像分辨率，实际上就是增加视觉Token的数量。然而，这种策略对MLLM的计算负担非常大，主要是由于Transformer架构中计算成本随输入Token数量呈二次缩放。为了解决这个挑战，视觉Token压缩，旨在减少大量Token造成的计算预算，已经成为了高效MLLM的必要方面。作者将通过几种关键技术来探讨这个话题，包括多视图输入、Token处理、多尺度信息融合、视觉专家Agent和视频特定方法。

2.4.1 多视角输入

直接使用高分辨率视觉编码器进行细粒度感知是过于昂贵且不符合实际使用需求的。因此，在启用MLLM感知详细信息的同时，利用低分辨率视觉编码器是一个常见的做法，即输入多视角的高分辨率图像，即全局视图：通过缩放获得低分辨率图像，以及局部视图：从图像块分割得到的图像块。例如，LLaVA-UHD 提出了一种图像模块化策略，将原生分辨率图像划分为更小、可变大小的切片，以实现高效和可扩展的编码。此外，InternLM-XComposer2-4KHD 引入了一种策略，动态调整分辨率，并采用自动布局安排，既保持了图像的原有 aspect ratios，又可自适应地改变块布局和计数，从而提高图像信息提取的效率。通过实现针对不同分辨率图像的适应性输入策略，可以在感知能力和效率之间实现平衡。

2.4.2 Token Processing

为了提高MLLM的效率，设计用于处理长序列视觉Token的技术至关重要，因为它们解决了保持细粒度细节和降低计算复杂性的双重挑战。LLaVA-UHD 提出了一种新颖的方法来管理高分辨率图像带来的计算负担。它提出了两个关键组件：

一个压缩模块，该模块进一步压缩视觉编码器中的图像Token，显著减少计算负载；
一个空间模式，用于组织切片Token以供LLM使用。

值得注意的是，LLaVA-UHD 通过仅使用94%的推理计算支持6倍更大的分辨率图像，比以前的方法更高效。此外，该模型在学术环境中可以有效地进行训练，在8个A100 GPU上完成该过程仅需23小时。LLaVA-PruMerge和MADTP 提出了一种自适应视觉Token减少方法，显著降低了视觉Token的数量，同时保持了可比模型性能。

TinyChart 和TextHawk 分别关注文档导向任务，前者采用Vision Token Merging模块，后者引入了ReSampling和ReArrangement模块。这些模块可以增强细粒度视觉感知和信息压缩能力。

2.4.3 多尺度信息融合

利用多尺度图像信息确实对视觉特征提取至关重要。这种方法使模型能够捕捉到较小尺度中的细微细节，并利用较大尺度中的更广泛上下文。Mini-Gemini包括两个编码器，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入。它提出了Patch Info Mining，该方法使用低分辨率视觉嵌入作为 Query ，通过交叉注意力从高分辨率候选中检索相关的视觉线索。

Scaling on Scales () 表明，具有多个尺度的较小模型具有与较大模型相当的学习能力，预训练具有的较小模型可以在MLLM基准测试上与较大模型相当甚至超过其优势，同时具有更高的计算效率。将大型图像分割为小子图像后，-wrapper 处理单个子图像而不是使用窗口注意力，这允许使用不支持窗口注意力的预训练模型，避免了从头开始训练额外参数。然后将大型特征图插值到常规大小，确保视觉Token的数量保持可接受。

2.4.4 视觉专家Agent

在许多MLLM中，由于其非无损图像分词，往往难以完全捕捉文本和物体的复杂细节。利用视觉专家Agent是解决单个视觉编码器在细节丰富内容上的有限泛化能力问题的一个解决方案。P2G 采用专家Agent进行实时定位，通过多模态提示实现高效有目的的推理。这种创新框架可以通过引入像 OCR Agent（文本）或 Grounding Agent（图像）这样的专家来实现在高分辨率富含自然视觉和文本的场景中进行推理的即插即用定位。MoVA 通过引入专家路由策略解决了单个视觉编码器在处理各种内容时的泛化能力减弱问题。这种方法使得可以从多个特定任务的视觉专家中灵活有效地利用表示，从而提高泛化能力。

2.4.5 视频特定方法

视频理解还需要处理大量帧，这在LLM的上下文中窗口中可能面临显著的计算挑战。Elysium 在性能和视觉Token消耗之间提供了权衡，其中T-Selector作为视觉Token压缩网络引入，使LLM能够在减少视觉Token使用的同时区分单个帧。

VideoLLaVA，在基于LanguageBind 的基础上，将视觉表示统一到语言特征空间，以推进基础LLM朝着没有大型计算负担的统一的语言-视觉LLM的方向发展。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

2.5 Efficient Structures

高效的结构主要探索三个方向：Mixture of Experts、Mamba和推理加速。

2.5.1 Mixture of Experts

Mixture of Experts (MoE) 增强了模型容量，通过调节模型参数的总数量而保持激活参数不变，从而不显著降低推理速度。MoE-LLaVA提出了一种基于MoE的稀疏MLLM框架，有效增加了参数数量而不牺牲计算效率。

此外，它引入了MoE-Tuning，一种三阶段训练策略，旨在将MoE适应到MLLMs，并防止稀疏性导致的模型退化。MM1设计了两种MoE模型。第一种是3B-MoE模型，它使用64个专家，每两层替换一个密集层为一个稀疏层。第二种是7B-MoE模型，它使用32个专家，每四层替换一个密集层为一个稀疏层。

2.5.2 Mamba

MambaCobra 将高效的Mamba语言模型集成到视觉模态中，并探索不同的模态融合方案，以开发有效的多模态Mamba。实验表明，它不仅与最先进的有效方法具有竞争性能，而且由于其线性顺序建模，速度更快。它在克服闭集挑战性预测基准上的视觉幻觉和空间关系判断方面也表现出色，同时只使用43%的参数，实现了与LLaVA相当的表现。VL-Mamba 用预训练的Mamba语言模型替代基于Transformer的 Backbone 语言模型。它探索了如何有效地实现2D视觉选择性扫描机制以实现多模态学习，以及不同视觉编码器与预训练Mamba语言模型变体的组合。

2.5.3 推理加速

推理加速SPD提出了一种使用语言唯一的模型进行推理的推测解码，以提高推理效率。通过将语言唯一的模型作为推测解码的草案模型，可以绕过图像Token及其相关处理组件的需求。快速视觉发现，大多数图像Token在第二个解码层之后接收低效的注意力，并在推理阶段通过消除冗余视觉Token实现计算减少，而不会牺牲性能。

VTW断言，在MLLM的更深层中，视觉Token并非必要。VTW在特定层上战略性地移除所有视觉Token，只允许文本Token参与随后的层。这种VTW的方法可以在各种多模态任务中减少40%以上的计算开销，而不会牺牲性能。

3 Efficient Vision

ViT架构已经获得了显著的流行度，并在计算机视觉应用中得到广泛使用。然而，随着ViT模型的大小增加，可训练参数和操作的数量也增加了，这影响了它们的部署和性能。此外，自注意力计算和内存成本与图像分辨率成平方。参考文献[95]，本文旨在探索可用于高效MLLMs的最有效的视觉编码方法。

3.1 紧凑型架构

紧凑架构是指在保持下游任务高性能的同时，设计轻量级和高效的模型。它涵盖各种策略和方法，以减小模型大小、计算复杂性和内存占用，而不会降低性能。这些策略可以广泛地分为三类：

架构设计方法
架构搜索方法
注意力机制优化方法

架构设计方法包括创建新的架构或调整现有架构来实现紧凑性而不会牺牲性能。例如，Reformer在注意力机制中引入局部敏感哈希以减少复杂性，同时使用可逆残差层更高效地存储激活。此外，EfficientFormer分析了基于ViT的模型架构和操作，引入了一种维度一致的纯Transformer范式，并采用延迟驱动的瘦身产生优化模型。此外，EfficientFormerV2提出了一种具有低延迟和高参数效率的超级网络。

架构搜索方法 涉及使用神经架构搜索算法来探索和发现针对特定任务或约束的紧凑架构。例如，Autoformer 将权重交织在层内，使得可以对数千个子网进行充分的训练。 NASViT 引入了可切换的层缩放算法、数据增强模块和优化收敛性能。此外，TF-TAS 研究了无训练架构搜索方法，并提出了一种高效的方法。 UniNet 引入了具有上下文感知能力的降采样模块，通过 Transformer 和 MLP 运算符改善信息容纳。

优化注意力机制方法主要通过引入自适应注意力、学习稀疏注意力模式和动态调整注意力机制来降低计算复杂性。Fayyaz等人[135]通过评分和自适应采样重要Token来实现自适应注意力。PatchMerger从区域Token中提取全局信息，并通过自注意力与区域Token之间的局部自注意力交换局部信息。DynamicViT提出了一个注意力遮挡策略，通过阻止与其他Token的交互来区分地裁剪Token。此外，Sepvit在窗口内和窗口间使用深度可分自注意力进行局部-全局信息交互。这些方法共同优化了注意力机制，提高了计算效率和性能。

3.2 剪枝

剪枝涉及从视觉 Transformer 模型中移除不太重要的权重，通常将其分类为无结构剪枝、结构剪枝和混合剪枝技术。

去结构化剪枝 关注于在不考虑模型中权重之间的结构布局的情况下消除单个权重。Rao等人[104] 提出了一种动态Token稀疏化框架，用于基于输入进行渐进和自适应去冗余Token的去重Token，并集成了一种轻量级预测模块来估计Token重要性得分，采用注意力遮挡策略来区分Token交互并优化预测模块以端到端进行。Cap 提出了一种新颖的、理论基础上的剪裁器，可以准确而高效地处理剪裁过程中的复杂权重相关性，同时还提供了一种有效的后压缩恢复微调过程。Cait 引入了不对称Token合并，以高效地集成相邻Token，同时保持空间结构一致，并与一致的动态通道剪裁相结合，用于在视觉 Transformer 中进行重要通道的统一剪裁，从而增强模型压缩。

结构剪枝旨在根据预定义的标准移除结构组件，如注意力头或层。例如，WDPruning 采用二进制 Mask 根据其幅度区分不重要的参数。此外，Yu et al.[136] 提出了一种统一框架，将剪枝集成到生成紧凑 Transformer 的框架中。X-Pruner 利用端到端学习的可解释性感知 Mask 测量每个单位对预测目标类别的贡献，并适当地搜索层级的阈值，以保留最具有信息量的单位，同时确定剪枝率。此外，VTP 通过将控制系数集成来降低嵌入维度，同时移除系数很小的神经元。Tang et al.[111] 通过首先在最后一层中识别有效的 Patch ，然后利用它们来指导前一层的选择过程，最后删除对最终输出特征影响最小的 Patch 。

混合剪枝研究了无结构化和结构化稀疏性，引入了一种第一级重要性近似方法进行注意力头删除。SPViT 开发了一种动态基于注意力的多头Token选择器，用于自适应实例 Level 的Token选择，并采用一种软剪枝技术，将信息较少的Token合并到包装Token中，而不是丢弃它们。ViT-Slim 利用可学习且统一的稀疏约束和预定义因素，在各种维度上的连续搜索空间中，表示全局重要性。

3.3 知识蒸馏

知识蒸馏是一种技术，其中较小的模型从较大的、更复杂的模型中学习，以复制其性能，从而实现高效的部署，同时保持预测精度。对于视觉 Transformer （ViTs）的知识蒸馏（KD）技术可以分为两大类：

同态KD
异态KD

同态KD进一步分为逻辑 Level，片 Level，模块 Level，以及特征 Level KD。

对于逻辑 Level 的方法，在DeiT中，引入了一个蒸馏Token符到自注意力模块中，以模拟教师模型推理的类别标签，从而促进了学生注意力和层之间的交互，使得在反向传播过程中可以学习到难标签。TinyViT在预训练期间应用蒸馏，将大型教师模型的输出预先存储在硬件中，从而在向缩小的学生 Transformer 传递知识时实现内存和计算效率。
片 Level 技术，如DeiT-Tiny，训练一个小型的学生模型，使其在片 Level 结构上匹配一个预训练的教师模型，然后使用分解的多维匹配损失进行优化，以降低计算成本。
模块 Level 的方法包括将预训练的统一模型中的教师模块分离出来，将模块化模型中的学生模块分离出来。在m2mKD中，这些模块与共享的元模型相结合，允许学生模块模拟教师模块的行为。
特征 Level KD方法，如MiniViT所示，将连续的 Transformer 块的权重进行组合。这涉及到在层之间共享权重，同时引入变换来增强多样性。此外，利用自注意力权重蒸馏从大规模ViT模型向具有多路复用权重的紧凑模型传递知识。

异构KD涉及在不同架构的模型之间传递知识。例如，DearKD 提出了一种新颖的两阶段框架 DearKD，与 ViT 架构的传统方法不同。在第一阶段，他们使用常规 KD 策略将 CNN 特征转移到 ViT 学生模型，表示异构迁移。在后续阶段，如果真实样本有限，他们引入了边界保持的内部散射损失，以增强过程。类似地，CiT 提出了一种异构 KD 策略，其中知识从多种模型（如 CNN 和逆网络）中传递，从而提高了 ViT 学生模型的性能。

3.4 量化

ViT量化是将ViT模型中的数值表示的精度降低的过程，通常从浮点数转换为定点数算术。这种精度降低的目的是减少内存使用，计算复杂度和能源消耗，同时保持模型准确性到一个可接受的水平。当前的研究主要可以分为PTQ，量化感知训练和硬件感知的量化。

PTQ通过将训练好的ViT模型的参数从高精度的浮点数转换为低精度的固定点数（如8位整数）来压缩模型。例如，刘等人[141]提出了一个排名损失方法，以识别权重和输入的最优低位量化区间，以确保注意机制的功能。他们还进行了一项分析，以了解不同层量化损失和特征多样性之间的关系，探索了一种混合精度量化方法，利用每个注意力图和输出特征的核范数。

此外，PTQ4ViT 引入了双均匀量化方法，最小化在softmax和GELU函数后的激活值量化误差，并采用Hessian引导的度量来增强校准精度。APQ-ViT 提出了一个统一的Blockwise Calibration方案来优化校准指标，优先考虑关键量化误差，并设计了一个Matthew-效应保留量化方法，以保持幂律特征和注意机制的功能。NoisyQuant 提出在量化值中添加一个固定的均匀噪声偏置，在满足一定条件的情况下，量化误差可以显著减小。这种技术成功地修改了重尾激活分布，以适应给定的量化器。

QAT将量化集成到训练周期中。这种集成在将模型缩放到超低位精度（如4位或更低）时特别有利，因为在这种情况下，PTQ会出现显著的性能损失。例如，Quanformer利用熵信息来保持自注意力排名的一致性，并引入了一种可微分搜索机制，以最优地分组 Patch 特征维度，减少舍入和剪裁误差。Q-ViT引入了一个蒸馏Token和一个信息校正模块（IRM）来抵消量化注意力模块中的分布变化。

TerViT和Bit-shrinking逐步减少模型的位宽，同时调节锐度，以保持在整个量化过程中准确性。PackQViT在量化过程中减轻了异常效应。BiViT引入了软max感知二进制化来调整二进制化过程，最小化软max注意力值的二进制化误差。Xiao等人[142]集成了一种梯度正则化方案来抑制二进制化训练中的权重振荡，并引入了一个激活位移模块来减少激活信息扭曲。此外，BinaryViT将CNN中的关键架构元素集成到纯ViT框架中，从而增强了其功能。

硬件感知的量化优化特定硬件平台（如GPU，FPGA）的神经网络模型量化过程。它调整精度和量化策略，以在推理期间最大化性能和能效。例如，Yu等人[131]提出了一种压缩方案，利用GPU友好的2:4细粒度结构稀疏性和量化。他们使用2:4结构剪枝将密集模型剪枝为稀疏模型，利用GPU加速。

然后，他们通过稀疏-蒸馏感知量化感知训练，将稀疏模型量化为固定点表示，利用GPU加速。在整个过程中，他们使用混合策略知识蒸馏，支持监督学习和无监督学习风格。Auto-ViT-Acc提出了一种用于量化ViT架构的框架，以便在FPGA驱动的设备上进行推理。他们专门针对注意力块内的FNN模块应用先前的量化函数，旨在优化FPGA资源的利用并加速推理。

4 Efficient LLMs

占据MLLM参数空间的绝大部分，LLM是提高MLLM效率的关键入口。在本节中，类似于综述论文[160]，作者简要概述了高效LLM的研究进展，为高效MLLM的开发提供灵感。

4.1 Attention

在标准的自注意力机制中，时间复杂度为，其中是序列长度。这种二次复杂度源于所有输入Token之间的配对交互，这可能导致可伸缩性问题，尤其是在处理长序列时（如在LLM中）。为了解决这个问题，研究行人已经开发了各种技术来加速注意力机制并降低时间复杂度，例如共享基础注意力、特征信息减少、核化或低秩、固定和可学习模式策略以及硬件辅助注意力。

共享注意力共享注意力通过在多个键值头之间共享计算资源来加速推理期间的注意力计算。例如，Llama-2 引入了一种称为分组 Query 注意力（GQA）的技术，在自回归解码过程中优化内存带宽。GQA 是一种共享注意力技术，旨在在性能和效率之间实现平衡，位于多头注意力和多 Query 注意力机制之间。在多头注意力中，每个头使用不同的线性转换参数集对 Query 、 Key和Value 进行处理。相反，多 Query 注意力在所有 Query 之间共享一套Key-Value Head。GQA 将所有 Query 头分为几个组，每个组的 Query 头共享一个公共的键值头，从而在有效性和计算成本之间建立严格平衡。

特征信息减少Feature Information Reduction，如Funnel-Transformer 和 Set Transformer 所示，解决了Transformer模型中注意力机制的计算效率关键需求，具体方法是通过在保留数据中嵌入的必要信息的同时减少输入特征的维数或数量。这一策略背后一个关键动机是Transformer模型中全长度隐状态表示的潜在冗余。Funnel-Transformer 通过逐步减少自注意力模型中隐藏表示的序列大小，如序列长度，来解决这个问题。这种减少不仅降低了计算复杂度和内存使用，还释放了可以用于构建更深或更宽模型的资源。

近似注意力Approximate Attention有助于模型在处理长文本时高效地关注任务相关的信息。在近似注意力中，有两个关键概念：核化和低秩。核化，涉及将问题转换为一个基于核的框架，其目的是将原始问题转换为一个在更高维空间中更易管理的较简化问题。核化主要用于将文本序列映射到高维空间，以便更容易地捕捉到任务相关的信息。在这个新空间中，文本序列中的每个词都被表示为高维向量，这些向量之间的距离用于衡量它们的相似性。低秩旨在将高维矩阵分解为两个低维矩阵的乘积。因此，通过计算这两个低维矩阵的逆，可以得到一个近似注意力矩阵的逆，从而显著降低计算复杂性。

4.2 Framework

Mixture of Experts（MoE）的核心思想是将一个大规模的模型分解成几个较小的模型，每个模型都专注于学习输入数据的特定部分。在训练过程中，每个专家都被分配一个权重，以确定其在整体模型中的重要性。在推理阶段，对于一个输入，所有专家都被排名，并选择最相关的专家进行计算。这种方法大大降低了计算量，因为只有专家的一部分参与了计算。通过将计算任务分配给不同的专家，MoE在训练和推理阶段都能实现更高效的计算资源利用。

在MoE中，每个专家都有自己的参数集，但这些参数在训练过程中是共享的。这种参数共享策略降低了模型中的总参数数量，从而降低了存储和计算成本。GShard是一个由一组轻量级标注API和XLA编译器扩展组成的模块，它提供了一种优雅的方式来表达各种并行计算模式，同时对现有模型代码做最小的修改。它使作者能够使用自动分片将稀疏专家混合的Transformer模型扩展到超过6000亿参数。Switch Transformer替换了标准Transformer中的 FFN （FFN）层，其中每个专家独立地对序列中的Token进行操作。其训练速度比Google之前开发的最大的模型T5-XXL快四倍，在相同的计算资源下。所提出的训练技术消除了训练过程中的不稳定性，证明了稀疏模型也可以以低精度格式（如bfloat16）进行训练。

虽然Transformer是当前大规模语言模型的主导架构，但像RWKV和Mamba这样的模型已经出现，作为实现高效和处理长文本的流行解决方案。这些创新模型展示了与Transformer类似的属性，包括处理长程依赖性和并行处理能力。RWKV模型利用线性注意力机制，使作者能够将模型构建为Transformer或循环神经网络（RNN）。

该方法在训练过程中并行计算，并在推理过程中保持常数计算和内存复杂度。

状态空间模型（SSMs）可以被表示为一种RNN，用于高效的自动回归推理，并已成为注意力机制的有前途的替代品，与注意力机制相比，其计算复杂性接近线性。SSMs被表示为，，将单一维度的输入信号映射到N维潜在状态，然后在将其投影到单一维度的输出信号，其中A，B，C和D是使用梯度下降学习的参数。已经提出了几种技术来增强SSMs，例如结构状态空间序列模型（S4），它通过条件矩阵A进行低秩校正，以改进SSMs，以及对角状态空间（DSS）模型，它提出了对状态空间进行完全对角参数化的更高效的方法。

H3将两个SSMs与它们的输出和输入投影相互作用，在SSMs和注意力之间架起桥梁，并适应现代硬件。Mamba，一种选择状态空间模型，已经被引入为大语言模型中Transformer架构的强有力竞争者。Mamba引入了一种选择机制来消除无关数据，并开发了一种硬件感知的并行算法进行循环操作。这使得与相同容量的大语言模型相比具有竞争力的性能，推理速度线性增长，常数内存使用。

总之，状态空间模型通过提供接近线性的计算复杂性和有效地捕获长期依赖性，提供了注意力机制的替代品。随着连续的进步和优化，SSMs有望成为深度学习和序列处理领域的一种有影响力的方法。

4.3 微调

微调，作为将LLMs适应到下游任务并训练MLLLMs遵循视觉指示的主要阶段，对于提高LLMs的效率至关重要。

参数高效的微调参数高效的微调（PEFT）是一种方法，旨在使用较少的参数在大型语言模型（LLMs）中实现高性能。 Adapter 调优和低秩调优等技术为缓解调优LLMs带来的计算和内存挑战提供了有效解决方案，同时保持其表达能力和泛化能力。基于 Adapter 的调优将轻量级的 Adapter 模块引入预训练模型的架构。这些 Adapter 模块通常由具有少量参数的前馈神经网络组成，被插入到原始模型层之间。在微调过程中，只更新 Adapter 参数，而预训练模型参数保持不变。这种方法显著减少了可训练参数的数量，从而实现了更快地训练和推理，而无需牺牲模型的性能。

LLM-Adapters 提出了一种将各种 Adapter 集成到大型语言模型中的框架，实现了参数高效的微调以处理各种任务。该框架涵盖了最先进的公开可访问的大型语言模型和一系列广泛使用的 Adapter 。(IA) 介绍了一种新颖的参数高效的微调方法，Infused Adapters by Inhibiting and Amplifying Inner Activations，它通过与激活值相乘学习向量来权重模型参数，从而实现强大的少样本性能和任务混合，而无需在推理过程中手动调整模型结构。

低秩调优采用矩阵分解技术减少模型中的参数数量。通过将原始权重矩阵分解为低秩矩阵，低秩调优捕捉了模型表示的最重要组成部分，同时丢弃了不太重要的信息。这导致了具有较少参数的更紧凑模型，可以更有效地进行微调。在 LoRA-FA 中，LoRA 的第一个低秩矩阵在初始化后冻结并用作随机投影，而其他则进行训练。这导致参数数量减半，同时保持了与传统 LoRA 技术相当的表现。DyLoRa 引入了一种动态低秩调优技术，可训练LoRA块以适应各种秩而不是单一秩，这是通过在训练过程中将 Adapter 模块学习的表示按秩进行排序而实现的。

全参数微调全参数微调是一种在微调过程中更新预训练模型所有参数的方法。这种方法通过利用预训练模型的全部能力，旨在在特定下游任务上实现最优性能。尽管全参数微调通常可获得最先进的结果并提高特定任务上的性能，但在计算资源和内存消耗方面要求更高。为了减轻训练负担，许多研究关注于在全参数微调期间提高内存效率。这种战略方法有效地减轻了该领域研究的障碍。LOMO 引入了一种来自随机梯度下降（SGD）的低内存优化技术来减少内存消耗。通常，采用 ADAM 优化器；然而，这种方法中的优化器状态占用大量内存。通过使用修改后的基于 SGD 的 LOMO，内存使用可以减少。

尽管 SGD 本身面临三个挑战，这些问题在模型微调过程中通常会自行解决。具体修改涉及在梯度计算期间更新参数，而不是在整个层之后更新。MeZO 提出了一种仅需两次前向传播来计算梯度的优化器，使具有与推理相同内存占用的小模型可以进行全参数微调。具有 55GB GPU 内存需求的模型允许全面微调 30B 参数的模型。

5 Training

高效的MLLM的训练过程是决定其在下游任务上的性能以及处理多样化模态能力的关键因素。在本节中，作者概述了各种训练方法，包括预训练、指令调优、多样训练步骤和参数高效的迁移学习策略。这些方法旨在优化不同模态之间的对齐，在特定任务上微调模型，并最小化与迁移学习过程相关的计算和参数成本。

图14呈现了开发高效MLLM所涉及的不同训练阶段的简化表示。在接下来的子节中，作者将深入探讨这些方面，并讨论它们在高效MLLM中的重要性。

5.1 预训练

在预训练阶段，主要关注于在嵌入空间中对不同模态进行对齐，使语言模型能够接受来自各种模态的输入。这一训练阶段的重点主要是大规模的文本配对数据，主要是图像-描述符对。一个图像-描述符对通常扩展为一个单轮对话，其中包含一个图像和一个从一组指示中随机选择的问，询问助手简要描述图像，而是原始图像描述。

给定这样的对话，模型被训练以自回归地预测图像描述。因此，作者可以计算出预测的条件概率，并使用标准的交叉熵损失函数进行优化：

当的长度为，表示可学习的参数。为了更好地对齐不同知识模态，避免在预训练阶段出现灾难性遗忘，通常只包括一个可学习的模态接口，即视觉语言投影器。

哪些部分需要解冻？考虑到仅训练连接器可能无法在使用SLMs时很好地对齐视觉和文本信息，TinyLlava 也选择部分解冻预训练模块（即视觉编码器和解码器），以激活更多参数进行对齐学习。VILA 表明，在整个预训练阶段更新基础LLM是继承一些引人入胜LLM属性的必要条件，如上下文学习。ShareGPT4V 发现，在视觉编码器的后一半层中解冻更多参数，特别是在学习更大和更多样数据集时，是有益的，这表明训练配方选择与数据质量密切相关。

多阶段预训练为了最大限度地提高计算效率，Idefics2将预训练分为两个阶段。在第一阶段，它将最大图像分辨率限制为384像素，并使用大的全局批量大小。在第二阶段，引入PDF文档以增加图像分辨率，使其最大为980像素，以便文本可读。

5.2 指令微调

指令调优（IT）是高效MLLM的关键方面，它通过利用特定任务的任务特定指令来微调模型。这种方法基于MLLM能够理解和遵循自然语言中提供的指令，从而在目标任务上提高性能的概念。在高效MLLM中，IT的优势是多方面的。首先，它使模型能够适应广泛任务，且只需对其架构或训练数据进行少量更改。这使其成为针对多样化任务的灵活和高效的方法。其次，IT允许更好的泛化，因为模型学会遵循指令并将其知识应用到新任务和未见过的任务上。

IT阶段通常遵循监督微调（SFT）范式。SFT数据集通常来源于预训练数据的某个部分，该部分被转换为指令格式，以单轮或多轮对话结构的形式呈现。给定图像及其描述，可以生成对话数据，其中T为总轮数。通常，作者可以将数据组织成遵循[7]中的指令和响应的序列，其中第t轮的指令为：

通过这种多模态指令遵循序列，IT可以通过与预训练阶段相同的自回归训练目标来实现。一种常见的策略是，在IT过程中保持视觉编码器的权重固定，同时继续更新投影器和SLM的预训练权重。

高效的IT当前的IT解决方案过于昂贵，需要优化大量参数和额外的海量训练。LaVIN提出了一种创新且成本效益的解决方案，用于高效调整MLLMs的指令。

在LaVIN中，混合模态适应（MMA）使用轻量级模块在LLMs和VL任务之间建立桥梁，这也便于视觉和语言模型的联合优化。实施LaVIN的实际成本显著较低，例如，只需要1.4小时的训练时间，可训练参数为3.8M。HyperLLaVA研究了尚未充分探索的动态调整策略，并利用两阶段训练中的视觉和语言指导动态调整，对投影器和LLM进行研究。

5.3 多样化训练步骤

传统两阶段策略需要手动分配各种可调整参数和数据集组合到不同的训练阶段，这任务繁琐。为减轻这一负担，SPHINX-X 提出了一种单阶段、全方位的训练 Pipeline ，公平地处理所有收集到的数据集，并始终将它们转换为多模态、多轮对话格式。在整个统一训练阶段，除了 SPHINX-X 中的视觉编码器外，所有参数都被激活。

Cobra 还认为预对齐的初始阶段可能不是必需的，模型即使在后微调后仍然可能过拟合。因此，它摒弃了预对齐阶段，而是直接对整个 SLM Backbone 进行微调，并使用投影器。

TinyGPT-V 的训练过程包括四个阶段：

一个视觉语言理解的初始预训练阶段
一个用于优化图像模态处理的第二个阶段
一个通过微调实现人类学习样式的第三个阶段
一个用于增强聊天机器人的多任务学习的第四个阶段

5.4 参数高效迁移学习

一些研究采用参数高效的微调（PEFT）技术进行迁移学习，如LoRA，以防止预训练知识的损失。高效注意力跳过（EAS）模块提出了一种新颖的参数和计算高效的调优方法，用于保持MLLMs的高性能，同时减少下游任务的参数和计算支出。

MemVP认为，这种迁移学习范式仍然具有低效性，因为它显著增加了语言模型的输入长度。MemVP中的视觉提示与Feed Forward网络的权重进行拼接，以进行视觉知识注入，以减少微调后的MLLMs的训练时间和推理延迟，并超越先前的PEFT方法的表现。

6 数据和基准

在本节中，作者概述了用于训练和评估高效MLLM的数据集和基准。作者讨论了预训练数据、指令调优数据和用于评估这些模型性能的基准的重要性。讨论的重点是实现强大和准确的MLLM的重要性，以及生成和优化这些数据集的各种策略。此外，作者还在建立的基准上对MLLM的性能进行全面比较，强调需要进行全面的评估以确保这些模型在实际应用中的有效性。

6.1 预训练数据

预训练数据主要服务于两个关键目标：

促进各种模态的整合；
传递全面的知识。

大规模图像-文本配对数据集自然满足这些要求。首先，它们主要来源于互联网，提供广泛的知识覆盖和大量数据量。其次，两个模态之间的直接对齐对训练模态投射器有益。然而，这些数据集中的标注往往简短且包含噪声，可以使用自动化方法进行精炼和过滤，例如使用CLIP模型消除相似度得分较低的图像-文本对。常用的预训练数据集总结如图2所示。

越来越多的研究利用强大的MLLMs（如GPT-4V）来生产高质量的细粒度预训练数据。这些数据集通常比粗粒度对应的数据提供更详细和准确的图像描述，从而实现图像和文本模态的更紧密对齐。然而，这种方法通常需要使用商业MLLMs，导致成本增加和数据量减少。

ShareGPT4V通过首先在100K个由GPT-4V生成的数据上训练一个描述者，然后使用预训练的描述者将数据集扩展到1.2M来解决这个问题。此外，VILA’s的研究发现，结合交错预训练数据是有益的，而仅依赖图像-文本对实现预期结果是不理想的。

6.2 指令微调数据

指令调优（IT）是改进高效MLLM准确解释用户指令和有效执行所需任务能力的关键步骤。这个过程与多任务提示的概念有着紧密的联系。

常见的预训练数据集概述可参见表3。高质量的信息技术数据可以从特定任务的数据集中获得。例如，考虑来自VQA数据集的一个样本，其中输入包括图像和自然语言问题，输出是基于图像的问题的文本回答。这可以很容易地形成指令样本的多模态输入和响应。指令，或任务描述，可以通过人工创建或使用GPT的半自动生成获得。

除了利用公开的特定任务数据集外，SPHINX-X还收集了一个专注于OCR的广泛来源PDF数据的数据集。具体来说，它首先从互联网上收集一个大规模的PDF数据集。然后，它获取PDF文件中每个页面的渲染结果，同时保存所有文本标注及其相应的边界框。最终，这些元素被转换为统一的问答格式。

尽管多任务数据集提供了丰富的数据来源，但它们并不总是适合处理复杂的现实世界场景，例如进行多轮对话。为了应对这一挑战，一些研究已经探索了利用LLM来自动生成文本或多模态的指导遵循数据，这些数据来源于有限数量的手动标注样本。SPHINX-X 汇集了一个丰富的多领域数据集，其中图像和文本之间存在细粒度的对应关系。它从各种来源收集图像，然后使用标注在原始图像上应用各种Token。通过提示 GPT-4V 这些Token的图像和定制的特定领域指南，系统可以生成提供图像概述、区域细节和目标关系洞察的描述。在训练过程中，SPHINX-X 使用未标注的图像而不是Token的图像。ALLaVA 提出在同一会话中为一张图像提炼一个描述和问答对。具体而言，它向 GPT-4V 提示一张图像，并要求它首先生成一个细粒度的描述，然后生成一个 VQA 对。

此外，排除多模态教学数据，用户与助手之间的纯语言交流在微调过程中，可以显著提高模型的会话专业度和对指令的响应能力。例如，VILA的研究表明，在微调过程中将仅包含文本的教学数据与包含图像文本的数据相结合，不仅抵消了仅包含文本任务性能的下降，而且提高了与MLLM相关的任务准确性。

6.3 Benchmarks

为了对所有AI模型进行全面性能评估，作者构建了一个表格，展示了22种MLLM在14个广泛认可的VL基准测试中的效果，如图4所示。此外，为了进一步参考，作者还包括了来自13个知名且更大的MLLM的结果比较。

7 Applications

从前面的分析可以看出，许多高效的MLLM方法在各种场景下评估其性能，如VQA，视觉定位，图像分割等。然而，在已经确立的任务中探索这些高效架构以实现其最终性能也非常重要。因此，作者选择引入几个下游任务，如医学分析，文档理解，视频理解等。

7.1 生物医学分析

由于标注生物医学数据的成本很高，基础模型有望成为生物医学领域的一种新范式，在许多应用中实现最先进的结果，包括医学问答和医学图像分类。最近，多模态生成AI在生物医学领域成为令人兴奋的前沿，将应用范围从单模态扩展到多模态，例如VQA和放射科报告生成。

专家调优的混合有效地提升了具有较少参数的通用MLLM的性能，然而在资源受限的医疗设置中的应用尚未得到充分探索。MoE-TinyMed 是一个针对医疗应用而设计的模型，其参数需求显著降低。LaVA-Rad 是一个最先进的工具，在单个V100 GPU的私有设置下展示了快速性能，使其在实际临床场景中具有高度适用性。它采用模块化方法，集成单模态预训练模型，并强调轻量级 Adapter 的训练。因此，LaVA-Rad在标准指标方面超过了较大模型如GPT-4V和Med-PaLM，展示了其优越的效率和有效性。

7.2 文档理解

图像文档或图表作为信息的重要来源，能够直观地以各种形式呈现数据。它们已经成为信息传播、商业决策和学术研究不可或缺的一部分。然而，当前的图表理解模型仍然面临两个主要局限性：

参数数量庞大，使得训练和部署具有挑战性。例如，ChartLlama，一个具有130亿参数的模型，在单张消费级显卡上部署起来非常困难。
这些模型在高效编码高分辨率图像方面存在问题，因为视觉 Transformer 往往会产生过长的特征序列。

为了应对面向文档的MLLMs（多模态语言理解）在细粒度视觉感知和视觉信息压缩方面的挑战，TinyChart 在采用Program-of-Thought（PoT）学习和视觉Token合并策略的同时，实现了比多个13B MLLMs更快的推理速度。TextHawk 通过设计四个专用的组件来解决文档导向任务带来的挑战，从而探索高效细粒度感知。HRVDA 和Monkey 也是为了解决视觉文档理解任务中高分辨率需求所设计的较大规模多模态模型。

7.3 视频理解

视频提供了人类不断感知视觉世界的方式的令人印象深刻且准确的代表。智能视频理解对于各种实际应用至关重要，包括视频类别分类、视频字幕和视频文本检索。像视频聊天和视频-LLaMA 这样的工作是面向聊天的大规模多模态模型，可以端到端地理解视频。然而，这些方法只能处理短视频中有限数量的帧。

为了应对处理长视频所面临的计算挑战，由于过多的视觉Token，已经开发了多种方法。mPLUG-video 是为了视频理解任务而设计的，它从基于 TimeSformer 的视频编码器开始，有效地从稀疏采样视频帧中提取特征，然后通过视觉抽象模块来减少序列长度。

Video-LLaVA 通过将图像和视频的视觉表示统一到一个单一的语言特征空间来进行各种视频理解任务，从而利用 LanguageBind 实现多模态交互的有效学习。LLaMA-VID 采用双重Token策略，用上下文Token（context token）编码基于用户输入的整体图像上下文，用内容Token（content token）封装每帧中的视觉线索。这种双重Token策略显著减少了长视频的超载，同时保留了关键信息。

与大多数现有工作相比，MA-LMM 提出了一种在线处理视频的方式，并将过去的视频信息存储在内存库中，以便在不超过 LLM 的上下文长度限制或 GPU 内存限制的情况下进行长期分析。

8 讨论与结论

8.1 局限性和未来的工作

高效MLLMs的开发仍处于初级阶段，改进空间巨大。作者将当前的状态概括如下：

目前，高效的MLLMs在处理扩展上下文的多元信息方面面临挑战，并且通常只能接受单张图像。这限制了能够处理更多多模态Token数量的高级模型的进步。这样的模型对于理解长视频和分析包含图像和文本的广泛文档的应用是有益的，可以创建更灵活和强大的系统。
然而，实际世界包含了更广泛的模态。通过扩大有效MLLM的覆盖范围以容纳更丰富的输入模态，并增强它们的生成能力，作者可以显著提高其多功能性并扩大其应用范围。

为了增强高效MLLM模型的效果，主要有两条途径: