（2025，GlobalCom^2，MLLM，高分辨率图像理解，Token 压缩，LLaVA-Next，AnyRes）

多模态大语言模型（Multimodal large language models，MLLMs）因其在视觉内容理解和推理方面的卓越表现而备受关注。然而，其推理效率一直是一个显著问题，因为随着多模态上下文长度的增加，计算复杂度呈二次增长。Token 压缩技术通过减少视觉 token 数量，有效降低了计算成本。然而，这些方法在应对 MLLMs 的快速进步，特别是高分辨率图像理解中 AnyRes 策略时，显得力不从心。本文提出了一种新颖的 token 压缩方法 GlobalCom^2（Global Compression Commander，全局压缩指挥），专为高分辨率 MLLMs 设计，能够同时接收缩略图和多个裁剪区域作为输入。

GlobalCom^2 将缩略图中生成的 token 视为整个 token 压缩过程的 “指挥官”，指导每个裁剪区域的保留比例和具体压缩方式。通过这种方式，可以最大限度地消除冗余 token，同时自适应地保留重要的局部细节。实证结果显示，在 10 个基准测试中，GlobalCom^2 在性能与效率之间实现了最佳平衡，并且在使用 LLaVA-NeXT-7B/13B 模型时，一直优于最先进的 token 压缩方法。

1. 问题描述

通过将视觉编码器与预训练的大语言模型（LLM）[1]–[3] 解码器结合，多模态大语言模型（MLLMs）[4]–[7] 在处理各种视觉语言任务方面取得了显著进展。这种集成使 MLLMs 能够理解视觉和文本数据，从而执行诸如视觉问答（visual question answering） [8]、图像描述生成（image captioning）[9]、指代表达理解（referring expression comprehension） [10] 和多模态推理 [11] 等复杂任务。然而，提取的视觉特征与文本指令结合后会增加输入的长度，加之上下文长度呈二次复杂度扩展，导致了极高的计算和内存需求，从而限制了 MLLMs 在现实场景中的实际部署。

为应对 MLLMs 推理速度的挑战，研究人员将目光转向了 MLLMs 的加速技术，这已成为学术界和工业界的关键需求。这些加速策略大多以模型为中心，包括知识蒸馏 [12] 和模型量化 [13] 等方法。然而，这些解决方案通常需要重新训练，从而增加了额外的计算成本。此外，它们通常是为特定的网络架构设计的，或者过于依赖经验技术，限制了其实用性和广泛应用性。近期的研究，如 token 压缩方法 [14]–[18]，已将重点转向通过最小化数据冗余来提高推理速度。这些方法旨在减少需要处理的 token 数量，同时保留模型做出准确预测所需的关键信息。其架构无关的特点使其能够应用于具有多样结构的 MLLMs。此外，当无法重新训练时，无需训练的 token 压缩方法仍能在效率与准确性之间实现最佳平衡 [19]–[21]。

然而，目前的 token 压缩方法仅适用于传统的 MLLMs。随着技术的发展，对高分辨率图像的解释需求变得更加迫切。传统 MLLMs 采用标准架构，往往难以捕捉图像中的所有细节。因此，LLaVA-NeXT [22] 和 InternVL 1.5 [23] 引入了一种基于裁剪的 AnyRes 方法，该方法将高分辨率图像划分为若干子图像（即裁剪区域），分别进行编码，然后与从调整大小的原始图像（即缩略图）中生成的 token 连接在一起。这使得 LLMs 能够接收来自不同尺度的更多视觉 token，从而专注于图像的更多细节，以全面理解图像内容并精确执行指令。然而，AnyRes 也增加了视觉 token 的数量，进一步降低了 MLLMs 的推理速度。

将现有的 token 压缩方法直接应用于包括缩略图和所有裁剪区域在内的所有视图，似乎是缓解 AnyRes 引入的开销的直接解决方案。然而，这种方法不仅忽视了缩略图和裁剪区域对视觉内容表达的不同贡献，还可能因仅从局部视角对每个裁剪区域进行压缩而导致重要局部细节在压缩过程中丢失，从而最终导致准确性的下降。

2. 相关工作

2.1. 多模态大语言模型（MLLMs）

为了发展视觉理解和推理能力，MLLMs [4], [6], [24], [25] 通常结合一个预训练的视觉编码器以提取视觉特征，以及一个预训练的 LLM 解码器以生成文本序列。

为连接两部分，一个视觉投影器被用来将视觉特征映射到 LLM 解码器的输入嵌入空间，从而创建一个包含用户指令的多模态提示。例如，

BLIP-2 [24] 使用冻结的 Flan-T5 模型进行多模态理解，并训练一个 Q-Former 作为视觉投影器来弥合模态差距。
LLaVA [4] 通过高质量的视觉指令微调数据集，以两阶段流程微调一个简单的线性投影器和 LLM，从而促进视觉和语言空间之间的对齐。
在此基础上，LLaVA-1.5 [5] 将线性投影器替换为多层感知机（MLP），进一步优化了视觉和文本信息的整合。

2.2. 高分辨率 MLLMs

为了与预训练期间使用的图像分辨率保持一致，MLLMs 通常在特征提取之前将图像调整为预定义的分辨率。然而，这种策略往往导致显著的形状失真和模糊。此外，在处理高分辨率图像时，简单的调整大小可能会导致局部细节的过度丢失，从而引发识别错误或幻觉问题。

为了解决这一问题，LLaVA-NeXT [22] 和 InternVL 1.5 [23] 中引入的 AnyRes 实践将高分辨率图像划分为多个区域（region），每个区域独立处理，然后与原始图像缩略图的视觉 token 连接起来。

AnyRes 策略已被后续工作 [26]–[28] 采用以适应更高分辨率。特别是，增加局部视觉 token 的数量有助于模型识别局部细节，并在需要文本识别或抑制幻觉的场景中显著提升性能。

然而，尽管提高了对高分辨率图像的理解能力，更多的裁剪区域也引入了更多的视觉 token，这可能使推理速度和内存使用成为 MLLMs 在实际应用中的限制因素。

2.3. Token 压缩

Token 压缩方法可以大致分为两种主要技术。一种是 token pruning [29], [30]，直接删除不太重要的 token；另一种是 token merging [31]–[33]，试图将 token 压缩为更小、更紧凑的单元集合，这种策略基于尽量减少信息丢失的假设。

虽然早期研究主要集中于 ViT，但最近的研究更多关注加速 MLLM 的推理过程。例如，

FastV [20] 基于从 LLM 自注意力机制中导出的注意力分数排名，剪枝不必要的视觉 token。
SparseVLM [19] 基于视觉 token 与文本 token 的注意力分数，自适应地剪枝视觉 token。
FasterVLM [21] 使用视觉编码器中的 [CLS] 注意力分数对视觉 token 重新排序，并保留得分最高的部分。

然而，这些方法并未专门为高分辨率 MLLMs 设计，因此在应用于高分辨率 MLLMs 时表现欠佳。

本文针对配备 AnyRes 策略的现成高分辨率 MLLMs，设计了一种无需训练的 token 压缩方法。

3. 方法

3.1 基础：LLaVA-Next

（2024，LLaVA-NeXT（LLaVA-1.6），动态高分辨率，数据混合，主干扩展）

3.2 全局压缩指挥：GlobalCom^2

高分辨率 MLLMs 采用的 AnyRes 策略使得 LLMs 能够捕获包含更多细节的高分辨率视觉信号，但同时也引入了大量额外的视觉 token。以 LLaVA-NeXT [22] 为例，其 AnyRes 策略将视觉 token 的长度扩展至原来的 3-5 倍左右，这显著增加了计算复杂度，从而大幅降低了 LLMs 的推理速度。

具体来说，自注意力机制 [34] 的计算复杂度随序列长度呈二次增长。这种增长在多模态上下文长度增加时，导致极高的计算和内存需求，成为限制高分辨率 MLLMs 实际应用的一个重要挑战。

基于上述分析，我们旨在通过视觉 token 序列压缩直接降低计算成本，从而提高高分辨率 MLLM 的推理效率。由于 LLaVA-NeXT 将输入图像划分为全局缩略图和一系列局部裁剪区域（如图 2 左上角所示），对 LLaVA-NeXT 执行视觉 token 压缩需要同时压缩全局缩略图和局部裁剪区域的 token。全局缩略图和局部裁剪区域在 LLaVA-NeXT 的视觉理解中发挥着不同的作用，这表明，应对每个组件应用不同的 token 压缩策略。

此外，由于全局缩略图作为整个输入图像视觉信息的 “摘要器”，提供整体视角，我们提出利用其作为 “全局压缩指挥”（Global Compression Commander，GlobalCom^2），引导高分辨率 MLLM 的 token 压缩（如图 2 所示）。下面，我们将详细说明 GlobalCom^2 如何分别指导全局缩略图和局部裁剪区域的 token 压缩。

3.2.1 全局缩略图压缩

视觉 token 压缩的核心原则是 保留重要的 token，同时减少不重要的 token。对于全局缩略图（Global Thumbnail），需要为 LLMs 提供整体视觉信息，重要的视觉 token 自然是那些可以最好地概括整个图像信息的 token。先前研究 [18], [31] 一致发现，在 ViT 中，[CLS] token 有效代表全局图像表示。

基于这一洞察，如图 2 中蓝色阴影路径所示，GlobalCom^2 利用 ViT 最后一层的注意力图，在所有注意力头中计算每个全局缩略图 token 与 [CLS] token 的平均注意值。该最后一层注意力图包含用于测量 token 重要性的最丰富的语义信息 [21]。

具体来说，对于全局缩略图中长度为 N 的 1D token 序列 X_G，第 i 个 token 的重要性分数 s^G_i 可表示为：

其中，q^CLS 是 [CLS] token 的 query 投影，K ∈ R^{N×D} 是通过可学习参数矩阵对 X_G 投影得到的，⊤ 表示矩阵的转置。

因此，具有较高 s^G_i 的视觉 token 包含更丰富的语义信息，并突出全局重要的视觉特征，因此应该被保留。相反，具有较低 s^G_i 的 token 直接从 X_G 中删除。我们为 GlobalCom^2 预设了一个 token 保留率 R，基于 s^G_i 保留前 k=R×N 个视觉 token，从而减少全局缩略图的视觉 token 序列长度。

通过这种方式，GlobalCom^2 无需训练即可实现对全局缩略图的 token 压缩，通过基于每个视觉 token 在全局缩略图中的语义重要性，保留语义重要的 token，同时压缩不重要的 token。

GlobalCom^2 的这一全局压缩机制减少了高分辨率 MLLM 在全局缩略图处理中的计算成本，从而部分加速了模型推理过程。

3.2.2 局部裁剪压缩

由于 AnyRes 策略将高分辨率图像划分为多个局部裁剪区域，这些局部裁剪区域的视觉 token 序列显著长于全局缩略图，并且包含更多的视觉冗余。此外，每个局部裁剪区域包含独特的视觉信息，导致裁剪区域之间的信息含量有所不同。如图 2 所示，上方的两个裁剪区域包含重要的实体信息（如足球运动员），而下方的两个裁剪区域则显示大量视觉冗余，主要是大面积的草地。图 2 中间上方的可视化展示了全局缩略图中的 token 与 [CLS] token 之间的注意力值，清楚地显示出上部区域具有更高的注意力值，表明从全局角度来看，上部两个局部裁剪区域包含更丰富的语义信息。

基于上述分析，我们认为每个局部裁剪区域对高分辨率 MLLM 整体视觉理解的贡献不同，因此需要为不同的局部裁剪区域应用不同程度的 token 压缩。语义信息丰富的局部裁剪区域应保留更多视觉 token，为 LLM 提供语义密集的视觉信息以捕捉关键的局部视觉细节。相反，语义内容有限的裁剪区域应接受更为激进的 token 压缩，从而使 LLM 聚焦于语义丰富的视觉信号。因此，我们旨在从全局视角指导局部裁剪区域的 token 压缩。具体而言，GlobalCom2 通过以下两方面的全局指导优化局部裁剪区域的 token 压缩：

1）保留率分配（Retention Ratio Allocation）

如图 2 左下角所示，GlobalCom^2 首先分析每个局部裁剪区域对整体视觉信息的语义贡献，根据其贡献水平自适应地分配适当的保留率。

具体来说，对于第 j 个局部裁剪区域，GlobalCom^2 计算其在全局缩略图中对应区域的 [CLS] 累积注意力得分，记为 s^G_j：

其中，对于局部裁剪区域中各个 token 的得分 s^G_m，它们反映了该裁剪区域在全局缩略图对应区域中的语义重要性。接下来，通过最大值 max(s^G_j) 归一化 s^G_j，来计算偏移得分（shifted score） ~s_j：

其中，τ 是用于调整得分尺度的温度超参数，默认值为 10。

随后，通过 softmax 函数计算相对权重 σ_j：

其中，加入了一个小常数 10^{−8} 以防止分母为零。权重 σ_j 表示每个局部裁剪区域对初始保留率 r'_j 的贡献水平：

其中，R 是预设的基础保留率。

最后，为了确保每个局部裁剪区域的保留率 r_j 不超过 1.0，GlobalCom^2 进行调整：

通过上述精心设计，GlobalCom^2 能够根据各个局部裁剪区域对全局视觉信息的表示，为每个局部裁剪区域分配最优的保留率，从而指导高分辨率 MLLM 在局部裁剪区域之间执行差异化的 token 压缩。

2）Token 重要性评估

在为每个局部裁剪区域获得最优的保留率之后，GlobalCom^2 进一步评估每个裁剪区域内 token 的重要性，并保留关键的视觉 token，如图 2 右下所示。每个局部裁剪区域经过独立的 ViT 编码后，我们可以获得每个 token 与 [CLS] token 之间的注意力值，反映每个 token 在该裁剪区域内对全局信息的表示能力。

与全局缩略图中的 token 重要性评估类似，GlobalCom^2 利用最后一层 ViT 中的 token 与 [CLS] token 之间的注意力图，为第 j 个裁剪区域中的第 i 个 token 分配一个局部重要性得分 s^L_{j,i}，反映该 token 在对应裁剪区域中的重要性。在这里，s^L 表示在去除填充 token 后的局部裁剪区域的注意力得分，有效捕捉实际图像内容的语义信息。然而，由于局部裁剪区域是独立编码的，s^L 仅能衡量 token 在其对应裁剪区域内的重要性，而不能反映其在整个图像中的重要性。

鉴于这一限制，GlobalCom^2 的目标是捕捉 token 在局部裁剪区域内的重要性以及其在全局上下文中的重要性，从而使局部裁剪区域的 token 压缩能够同时受到局部和全局视角的引导，从而保留更多重要的本地视觉细节。

如图 2 右下角所示，

GlobalCom^2 首先将全局缩略图中 token 与 [CLS] token 之间的 1D 注意力得分 s^G 重塑为 2D 格式，并通过双线性插值（参见图 2 中的 "interp."）将其调整为匹配原始高分辨率图像的尺寸。
接下来，将插值后的注意力图根据局部裁剪区域的分割划分为多个子注意力图，这些子注意力图能够从全局视角衡量局部裁剪区域中 token 的语义重要性。
通过将这些子注意力图与来自各个局部裁剪区域的注意力图结合起来，我们可以从全局和局部的角度全面评估 token 的重要性。

具体来说，第 j 个局部裁剪区域中第 i 个 token 的综合重要性得分 s_{j,i} 通过将其来自全局子注意力图的全局得分 s^G_{j,i} 与其来自局部裁剪区域注意力图的局部得分 s^L_{j,i} 相结合来计算，公式如下：

其中，α 是一个标量超参数，用于平衡两个重要性得分的贡献，默认值为 0.5，使得两个重要性得分具有相等的权重。随后，根据 GlobalCom^2 为第 j 个裁剪区域分配的保留率 r_j，我们根据其综合重要性得分 s_j 保留前 k 个视觉 token，其中 k = r_j × N，以压缩第 j 个裁剪区域中的视觉 token。通过这种方式，GlobalCom^2 自适应地保留局部裁剪区域中在全局上重要的同时又包含丰富局部细节的 token，为 LLM 提供了更精细的视觉信息。

3.3 讨论：理论复杂度分析

GlobalCom^2 对高分辨率 MLLM 中的大量视觉 token 进行压缩，从而降低了它们的计算成本。下面，我们分析高分辨率 MLLM 在预填充阶段和解码阶段的理论计算复杂度。

在预填充阶段，单个 Transformer 层的 FLOP（浮点运算次数）可以通过公式估算：

当应用 token 保留比率 R 时，其中保留的 token 数量定义为 ^N = R⋅N，则相应的理论 FLOP 降低比率 η 可以重新表述为：

在解码阶段，通过集成 KV-Cache（键值缓存）显著提高了计算效率。这一改进体现在将注意力计算的复杂度降低至 O(T)。因此，计算 FLOP 的公式被精炼为：

考虑到当前硬件的限制，在推理过程中有效管理动态 KV-Cache 长度仍然面临重大挑战。因此，在解码器之前实现剪枝策略可能有助于加速推理过程的更高效加速。

4. 实验

保留率分配对局部图块的消融实验：表 III 展示了不同保留率分配策略对局部图块的影响。我们采用了四种不同的策略：

均匀分配（Uniform）： 每个局部图块统一采用 25% 的保留率。
n_{top-k}： 每个图块的保留率由其对应全局缩略图区域中的前 k 个 token 占总前 k 个 token 数量的比例决定，其中 k = 25% × N，N 为全局缩略图的 token 长度。
Softmax（max）： 每个图块的保留率通过其对应全局缩略图区域内最大 s^G_j 占整体 s^G_j 的比例计算得出。
Softmax（sum）： 每个图块的保留率通过其对应全局缩略图区域内所有 s^G_j 的总和占整体 s^G_j 的比例计算得出，这也是我们采用的策略。