An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
----
第 2 层之后,一张图像就只需要一半token:大型视觉语言模型的即插即用推理加速
1北京大学多媒体信息处理国家重点实验室
2阿里巴巴集团
摘要:
在这项研究中,我们发现了大视觉语言模型 (LVLM) 中的低效注意力现象,特别是在 LLaVA-1.5、QwenVL-Chat 和 Video-LLaVA 等著名模型中。我们发现,在流行的 LVLM 的深层中,视觉标记的注意力计算效率极低,这表明与文本数据处理相比,需要一种更稀疏的方法。为此,我们引入了 FastV,这是一种多功能的即插即用方法,旨在通过在早期层中学习自适应注意力模式并在后续层中修剪视觉标记来优化计算效率。我们的评估表明 FastV 能够大幅降低计算成本(例如,LLaVA-1.5-13B 的 FLOP 减少 45%),而不会牺牲各种图像和视频理解任务的性能。 FastV 的计算效率和性能权衡是高度可定制的和帕累托效率的。它可以压缩 13B 参数模型的 FLOP,以实现比 7B 参数模型更低的预算,同时仍然保持卓越的性能。我们相信 FastV 对于在边缘设备和商业模型中部署 LVLM 具有实用价值。代码发布于 https://github.com/pkunlp-icler/FastV。
图 1:FastV 的效率/性能权衡曲线。 x 轴代表不同 FastV 配置下的理论 FLOPs 减少率。 y 轴代表不同设置下的性能,我们报告 {Nocaps (Cider)、Flickr30k (Cider)、A-OKVQA (Acc)、MMMU (Acc)} 的平均分数。我们可以看到,FastV 可以实现 45% 的 FLOP 减少,并且对于不同模型几乎没有性能损失。
1 简介
大型视觉语言模型 (LVLM) 已成为计算机视觉和自然语言处理研究中的热点。我们见证了基于强大的 LVLM Liu 等人构建的巨大的创造性研究和应用。从描述给定的图片到浏览互联网。 使用智能手机。 并在现实世界中做出决策 。 具有视觉能力的大型语言模型正在重塑我们与人工智能系统交互的方式,而这不能仅通过语言或视觉单模态模型来实现。
目前,大多数流行的 LVLM 依赖于顺序视觉表示,其中图像在与语言提示一起输入 LLM 时会转换为数百或数千个标记。
由于 LVLM 利用其语言组件固有的高级紧急功能,因此它们同时面临与预算增量相关的计算复杂性激增。这种复杂性源于这样一个原则:大型语言模型 (LLM) 的熟练程度主要受其规模影响。在这种情况下,两个关键领域仍未得到充分探索:1)语言模型如何处理和解释图像? 2)虽然 LLM 的高效训练和推理引起了相当大的关注,但 LVLM 中的这些维度仍有待彻底检查和理解。
在本文中,我们揭示了这样一个事实:当前的 LVLM 在处理图像信息时实际上采用了一种低效的方式。具体来说,与 LLaVA 等基于标记的 LVLM 中的文本对应项相比,图像标记获得的注意力分数明显较低。浅层和深层之间的不平衡程度也有所不同。从我们对各种视觉语言任务的实验中,我们观察到,在著名 LVLM(例如 LLaVA 1.5)的深层(第 2 层之后),图像标记获得的平均注意力分数仅为 0.21%。系统提示。相比之下,这个数字在最初的两层中达到了50%。这些观察结果对 LVLM 中视觉信息的最佳利用提出了疑问。
为了解决这个问题,我们假设一个合理的解释是,视觉信号中的高冗余导致通过浅层中的自注意力机制将图像相关的、特定于指令的特征聚合到某些“锚”标记上。值得注意的是,这些锚标记很少是图像标记。在深层中,注意力集中在这些锚标记上,导致对图像标记本身的注意力显着减少。
这一现象启发我们提出 FastV,一种动态图像标记修剪方法,以减少 LVLM 的推理预算。我们的研究结果提出了一个有趣的可能性:鉴于由于注意力的减少,图像标记对更深层的输出生成的贡献微乎其微,为什么不考虑在这些阶段删除它们呢? FastV 在 LLM 的一个特定层实现了图像令牌修剪策略。在这一层之前,计算照常进行。除了这个选定的层之外,图像标记将根据其平均收到的关注分数进行重新评估。然后,低于预定义注意力分数阈值的令牌将在后续层中有选择地丢弃,通过关注最具影响力的令牌来简化流程。
与其他基于注意力的加速推理方法(例如稀疏注意力)相比,FastV 最显着的区别在于它直接消除了token标记。这种方法不仅绕过了自注意力模块的计算需求,还绕过了更深层次的前馈网络(FFN)模块。因此,FastV 理论上极大地减少了 FLOP,同时保持相对较高的性能,如图 1 在 LLaVA 和 Qwen-VL-Chat 模型上的实验所示。我们在 LLaVA-1.5-13B 模型上的实验表明,我们可以在第 2 层之后过滤掉 50% 的图像标记,而不会牺牲视觉语言任务组合的平均性能,包括 Nocaps Agrawal 等人的字幕任务。 (2019),Flickr30K Plummer 等人。 (2015),多项选择任务,如 A-OKVQA Schwenk 等人。 (2022),MMMU Yue 等人。 (2023),复杂的具体推理任务,如 PCA-Bench Chen 等人。 (2024;2023),需要详细 OCR 能力的任务,如 OCR-VQA Mishra 等人。 (2019) 以及更具挑战性的视频理解任务 Jang 等人。 (2017);徐等人。 (2017a;b)。我们对 A-OKVQA 的延迟测试实验表明,采用 FastV 的 LLaVA-13B 模型可以实现比 LLaVA-7B 模型更低的延迟,同时保持卓越的性能。这一结果凸显了 FastV 在平衡 LVLM 速度和准确性之间的权衡方面的有效性。
刘等人的研究。 (2023c);李等人。 (2023f) 强调了增强图像分辨率对于 LVLM 性能的重要性。然而,同样重要的是要注意,分辨率的提高也带来了其自身的挑战,包括计算预算的增加,例如更长的图像令牌序列和推理延迟。我们还通过设置不同步长的池化层在不同图像特征分辨率下训练 LVLM 进行实验。具体来说,在相同数量的图像令牌的情况下,配备 FastV 的模型可以处理更高分辨率的图像,从而比仅限于较低分辨率特征的模型具有更好的性能。这一发现凸显了通过提高图像分辨率来增强下游性能的潜力,而不会产生额外的推理成本。
总之,这项工作的贡献有三方面:
1. 识别并分析流行的 LVLM 中低效的视觉注意现象。
2. 根据我们的观察,提出 FastV,这是一种即插即用的方法,可以显着减少 LVLM 的推理预算,而不会牺牲性能。
3. 通过彻底的消融,验证 FastV 在不同 LVLM 上的各种视觉语言任务上的有效性。
2 相关工作
大视觉语言模型。为了受益于LLM的进步并将视觉信息集成到LLM中,大型视觉语言模型利用视觉提示生成器 Li 等人。 (2023a) 将视觉嵌入转换为语言模型可以理解 Li 等人的提示。 (2023b);刘等人。 (2023c),导致所需token大幅增加。处理更高分辨率的图像不可避免地需要所需token数量的指数增加。例如,LLAVA 将 336x336 图像处理为 576 个token Liu et al. (2023b) 并将更高分辨率 672x672 的图像处理为 2304 个token Liu 等人。 (2024b)。福宇·巴维什等人。 (2023) 以类似的方式将 1080x1080 的像素级图像转换为 1296 个token。理解和生成多个图像或视频本质上还需要增加视觉信息的token数量。视频诗人 Kondratyuk 等人。 (2023) 和 Unified-IO2 Lu 等人。 (2023)被迫在上下文中保留数千个token,以促进多个图像或视频的理解和生成。大型多模态模型,如 Gemini Team 等。 (2023) 和 LWM Liu 等人。 (2024a) 强调了长上下文对于建立对世界模型的稳健理解以及将上下文长度扩展到 1M 以解决上下文要求不断升级的问题的重要性。尽管如此,考虑到计算资源的限制,这对为此目的优化利用可用资源提出了重大挑战。需要进一步研究和开发计算技术来克服这些障碍并充分释放 LVLM 的潜力。
LLM 的推理优化。 LLM 中的高效推理受到自回归生成的挑战,其中每个token预测都取决于前面的上下文。因此,考虑到训练期间计算注意力的二次复杂度,随着上下文长度的增加,生成速度逐渐变慢。为了应对这些挑战,开创性研究分为两类:优化注意力模块内存消耗的方法,如 FlashAttention、vLLM 和 RingAttention Dao 等。 (2022);道(2023);权等人。 (2023);刘等人。 (2023a),确保结果不会发生剧烈变化,以及 StreamingLLM 和 FastGen Xiao 等人的方法。 (2023);葛等人。 (2024)通过修剪冗余注意力计算来简化计算。我们对第二种方法感兴趣,因为它们是受到LLM推理中观察到的独特注意力模式的启发而提出的。虽然这些方法提高了 LLM 的推理效率,但它们是为纯文本语言模型设计的,并且它们的有效性是否可以转移到 LVLM 仍有待探索。之前有一些工作尝试有效地处理 LVLM 中的长上下文,例如 LLaMA-VID Li 等人。 (2023e)利用交叉注意力通过两个关键token有效地表示每个视频帧,但对额外微调阶段的要求阻碍了其对不同 LVLM 的广泛适用性。
3 VLLM 中低效的视觉注意力
3.1 预备知识
在本节中,我们从自注意力模块的角度深入研究 LVLM 在输出生成过程中如何处理视觉标记。对于图像-问题对 (d, t),给定的 LVLM M,通常采用变压器 Vaswani 等人的结构。 (2017) 解码器,以自回归方式预测答案 ˆ y = M(d, t):
包含图像和文本的多模态信息在由转换器模型处理之前被转换为顺序嵌入。对于图像,常用的方法是采用预训练的编码器,例如 CLIP-VIT Radford 等人。 (2021),提取视觉特征。然后通过消除空间维度来线性化这些特征。附加线性变换 Zhu 等人。 (2023);刘等人。 (2023b) 或交叉注意力 Li 等人。 (2023b);白等人。 (2023) 模块用于调整视觉特征的大小,以匹配大型语言模型 (LLM) 的嵌入大小并实现语义对齐。对于文本,分词器将自然语言分解为离散的标记,然后执行嵌入查找以形成文本嵌入。在本文的其余部分中,我们将“视觉标记”和“文本标记”不仅称为视觉和文本数据的离散单元,而且称为从这些单元派生的嵌入。
如图 2 所示,将图像和文本标记预处理到统一的嵌入空间后,将它们馈送到转换器解码器以生成输出标记。每个解码步骤的输入令牌可以分为四种不同的类型:系统提示(sys)、图像token(img)、用户指令(ins)和输出令牌(out)。 LVLM的系统提示通常继承主干LLM,作为控制LLM行为的通用消息,这是在LLM的指令调优阶段决定的。图像token是由预训练视觉编码器转换的线性化图像特征。用户指令指定给定图像的查询问题。输出token是根据前面的标记逐步生成的。
图2:LVLM的经典网络架构。图像token和不同类型的文本token作为输入发送到 LLM。 LLM 以自回归方式生成以输入token和先前输出为条件的输出token。
3.2 实验设置
为了探索 LVLM 如何处理图像标记,我们首先从包括图像标题 (Flickr30K) 在内的视觉语言任务组合中随机采样 N 个图像文本对 D = {(d1, t1), ..., (dN, tN)},体现推理(PCA-Bench)、视觉问答(A-OKVQA)、多模态理解与推理(MMMU),然后提示 LVLM 生成 N 个响应 ˆ Y = {ˆ y1, ..., ˆ yN }。
在一个响应的解码过程中,我们收集不同层中每个输出标记的注意力分数分布α,并对不同类型的输入标记进行求和。也就是说,对于第 i 个 token,在第 j 层,我们计算 来表示当前 token 关注系统的总注意力分数提示、图像标记、用户指令和输出标记。我们有:
我们计算总注意力分配 λ 来表示在一层中收到的一种类型令牌的总注意力得分。例如,第j层系统提示的总注意力为:
其中 n 是响应中的令牌数量。最终的注意力分配是对我们采样的 N 个图像文本对中的所有注意力头进行平均。
接下来,我们定义度量注意力效率 ε 来表示在一个响应的解码过程中在一层中收到的每种类型令牌的平均注意力得分。例如,第j层图像标记的注意力效率为:
哪里|img|是图像标记的数量,n 是响应中标记的数量。最终的注意力效率是我们采样的 N 个图像-文本对中所有注意力头的平均值。
在我们的实验中,N 设置为 1000,我们使用 LLaVA1.5-7B 作为 LVLM。我们遵循与原始论文 Liu 等人相同的生成配置。 (2023c)。
3.3 结果
我们在注意力模式统计中发现了两个主要发现,即不同类型输入标记的注意力分配 λ 和注意力效率 ε 。我们将前 2 层定义为浅层,其余 30 层定义为深层。
1.注意力分配和注意力效率都表现出不同程度的不平衡,这与层深有关。不同层的平均注意力分配和效率如图3所示。浅层的注意力分配比深层的注意力分配相对更加平衡。在浅层中,输出令牌倾向于关注先前的输出令牌,而在深层中,它们倾向于关注系统提示。
图 3:低效视觉注意力现象的图示。左边部分显示了不同类型输入令牌的相对位置和平均数量,令牌只能关注自注意力模块中前面的令牌。平均而言,图像标记占据了大部分输入标记 (64%)。中右部分显示浅层和深层的平均注意力分配 λ 和注意力效率 ε 。相对于深层图像的数量,图像标记受到的关注要少得多。
2.图像token在浅层和深层的注意力效率最低。系统提示在深层具有极高的注意力效率,是图像标记的472倍,占总注意力分数的85%。
3.4 见解
统计数据揭示了 LVLM 解码过程中的一个令人惊讶的趋势:尽管占输入中的大多数标记,但图像标记受到的关注明显较少。相反,提供最少语义信息的系统提示吸引最多的注意力。为了更深入地研究这种现象,我们分析了模型响应解码过程中第一层、中间层和最后一层的注意力图,如图 4 所示。所有层的注意力图在图 7 中提供。补充材料。
图 4:LLaVA1.5-7B 的一种模型响应解码过程中的注意力图。我们可以看到,在底层,注意力在不同类型的 token 上分布相对平滑。在深层,在局部注意力之上,注意力分数被聚合到系统提示、指令和输出标记,而对图像标记的注意力相当稀疏。
从注意力可视化结果中,我们可以看到,在浅层,注意力分数在不同标记之间分布更加平滑。而在深层,则有垂直的强线(系统提示中)占据了大部分注意力分数。垂直强线的存在表明,有一些输入标记在整个解码过程中始终受到高度关注。这也解释了我们统计数据中注意力效率高度不平衡的原因:一小部分锚定令牌聚合了所有输入令牌的信息,并且模型更倾向于关注深层的这些锚定令牌。图像标记的许多信息被聚合到系统提示等非图像标记中,这导致 LVLM 中视觉注意力严重低效。我们的发现也与 Wang 等人发现的大型语言模型的信息流一致。 (2023)。
4 FastV
根据经过验证的现象和解释的见解,我们提出 FastV 作为一种解决方案,可以在不牺牲性能的情况下减少 LVLM 的推理预算。
4.1 动态修剪视觉token
图 5 说明了 FastV 的总体思路。关键是图像令牌重排序和过滤模块。它由一个排序函数fφ和两个参数组成:过滤层数K和过滤比R%。在 LVLM 的 K 层,排名函数 f 采用一系列输入标记,并根据某些重要性标准 φ 对它们进行排名。排名后的最后 R% token将在连续层中被修剪掉。我们简单地计算一个令牌从所有其他令牌收到的平均注意力分数,作为我们实验中的标准 φattn。在极端情况下,K也可以设置为0,即图像标记在发送到语言模型之前被修剪,我们使用随机排名作为标准φrand,其中图像标记被随机丢弃。
FastV 可即插即用到不同的基于令牌的 LVLM,用于各种视觉语言任务,无需训练模型。我们与 VideoLLaVA Lin 等人一起完成视频理解任务。 (2023a) 为例,如图 5 所示。
图 5:FastV 图示。对于图像或视频输入(多个图像帧),它们首先使用 CLIP-VIT 等预训练图像编码器转换为视觉标记,然后由 LLM 解码器进行处理。 FastV 在输入 token 的前向过程中动态修剪 K 层之后的 R% 图像 token。从输出中我们可以看出,FastV 不会影响正确性,同时显着减少了 FLOP。输出中的正确事实标记为绿色。前三个输出完全相同。
4.2 计算预算估算
我们在 FLOPs 估计中考虑多头注意力(MHA)和前馈网络(FFN)模块的计算。对于一个 Transformer 层,假设 n 是 token 数量,d 是隐藏状态大小,m 是 FFN 的中间大小,总 FLOP 可以通过 来估计。对于整个模型,假设 FastV 在 K 层之后将标记从 n 修剪为 ^ n = (1 − R%) · n,并且总共有 T 层。与图像标记相关的理论 FLOPs 减少率计算如下:
我们绘制了一个 3D 图表来显示 FLOPs 减少率如何随 FastV 的参数 K 和 R 变化,如图 6 所示。
图 6:理论 FLOPs 减少率的热图。图中颜色代表FastV中不同K和R下的缩小比例。
4.3 比较:用更少的视觉标记进行训练
FastV 通过在推理阶段消除冗余视觉token来减少计算量。减少视觉token的另一种方法是直接使用较少的视觉标记进行训练。这可以通过在 LVLM 训练过程中对视觉编码器的输出进行池化来简单地完成。我们在消融研究中比较了 FastV 和该方法(第 5.4 节)。
5 实验
5.1 评估任务
我们进行了广泛的评估,包括图像和视频理解任务,以检查 FastV 对 LVLM 性能的影响。我们对所有实验都使用贪婪搜索,并在补充材料的 A 部分中提供有关每个任务所使用的提示的详细信息。
图像描述。图像描述要求模型生成给定图像的描述。我们选择 Nocaps Agrawal 等人。 (2019) 和 Flickr30k Plummer 等人。 (2015) 作为基准并报告 CIDEr 评分 Vedantam 等人。 (2015)作为公制。
视觉问答(VQA)。 VQA 要求模型为给定的图像-问题对生成答案。我们选择A-OKVQA Schwenk等人的开发集。
多模态推理。与VQA相比,多模态推理需要模型更高级的感知、知识和推理技能,这些是更适合评估LVLM综合能力的基准。我们选择MMMU和PCABench Chen等人。 (2024)作为基准。 MMMU 是一个多模式基准测试,其特点是需要大学水平的学科知识和推理技能的多学科任务。 PCA-Bench是一个具有错误定位功能的复杂具身推理基准,具有自动驾驶、机器人和游戏三个不同领域的特点。我们报告了 MMMU 开发集的多项选择准确性以及 PCA-Bench 开放和封闭测试集的感知、认知、行动、真正 PCA 分数。
视频问答。与单图像的 VQA 类似,视频问答要求模型根据给定的视频问题对生成答案。当前的 LVLM 通常通过采样多个帧作为输入来处理视频问答任务,从而产生更长的图像标记序列。我们选择 TGIF-QA Jang 等人。 (2017),MSVD-QA Xu 等人。 (2017b) 和 MSRVTT-QA Xu 等人。 (2017a) 作为 Video-ChatGPT Maaz 等人的评估流程的基准。 (2023) 并将准确性和 chatgpt-score 报告为指标。由于评估中商业 API 的使用有限,我们在实验中使用每个基准测试中的前 1K 个示例。
5.2 模型设置
我们使用各种开源模型测试 FastV。对于图像理解任务,我们在 LLaVA1.5-7B、13B1 Liu 等人上进行了实验。 (2023b) 和 Qwen-VL2 Bai 等人。 (2023)。当谈到视频理解任务时,我们的基线模型是 VideoLLaVA3 Lin 等人。 (2023a)。我们采用他们的论文中报告的基线模型设置。
5.3 主要结果
图像理解。不同 FastV 设置下的任务性能如表 1(Nocaps、Flickr30k、A-OKVQA、MMMU)和表 3(PCA-Bench、OCR-VQA)所示。延迟测试结果如表2所示。
表1:不同配置下FastV的性能/计算平衡(K为过滤层,R为过滤比)。每个模型的最高分为红色,第二高分为蓝色。
表 2:FastV 和普通解码之间的实际推理预算比较。为了消除输出序列长度对解码时间的影响,我们在 A-OKVQA 数据集上报告结果,其中模型只需要输出一个选项。借助 FastV,13B 模型的推理速度可以与 7B 模型一样快,同时保持其卓越的性能。延迟实验在单个 A40 GPU 上进行。
不同 K-R 组合对性能的影响。我们针对参数(K 和 R)如何影响加速和下游任务的性能进行了消融实验。我们选择 OCR-VQA 作为任务,这需要对图像有透彻的理解。结果如图7所示。当K较小时,降低R会以较小的FLOPs减少比来提高性能。相反,当 K 较大时,调整 R 对整体性能的影响最小。这一观察结果进一步证明,在深层中,图像标记存在很高的冗余度。
图 7:FastV 中过滤层 K 和过滤比 R 的消融研究。使用LLaVA1.5-13B在OCR-VQA任务上进行实验。当 K 较小时,降低 R 会以较小的 FLOPs 降低比来提高性能。相反,当 K 很大时,改变 R 对整体性能的影响最小。
使用更少的token进行训练。 FastV 通过在推理阶段修剪token来降低计算要求 (FLOP)。减少token的另一种方法是以较低的分辨率训练 LVLM。为了便于公平比较,我们重新训练了两个 LLaVA1.5-7B 模型,遵循原始的预训练和监督微调协议。第二个模型训练过程中的唯一修改是在 Clip 编码器之后加入平均池化层(步长为 2),从而导致训练期间图像标记减少 50%。表 5 中的 (a) 行和 (b) 行之间的比较表明,在训练期间直接降低输入分辨率会导致性能下降。相反,FastV 设法在不影响性能的情况下减少图像token的数量,展示了其在平衡计算节省与模型功效方面的效率。
修剪token策略。 FastV 在 LVLM 的推理阶段策略性地减少了图像token的数量,其动机是我们观察到图像token相对于其他类型的输入标记表现出最低的注意力效率。在研究的(d)和(f)行详细的实验中,我们专门修剪了与图像无关的token,例如系统提示和指令标记。即使只删除了最少量的非图像标记,这种选择性修剪也会导致性能显着下降。我们还比较随机丢弃的视觉标记,而不是按注意力等级丢弃,如第 (c) 行所示。与原始 FastV (b) 相比,它导致结果下降。这些发现强调了视觉和文本标记在 LVLM 中发挥的独特作用。它强调了 FastV 在精确定位图像标记以进行减少方面的有效性,从而在不影响模型整体功能的情况下优化性能。
在我们之前对注意力效率的观察中,我们发现系统提示占据了大部分注意力,即使它们在上下文中携带了最少的语义信息。我们进行另一个实验,直接修剪系统提示符的前半部分标记。比较(d)行和(e)行,我们可以发现系统提示中的头标记对模型性能具有主导作用。我们的研究结果也与 StreamingLLM Shaw 等人的观点一致。 (2023) 他们发现 LLM 中的前 4 个token在推理过程中发挥着最重要的作用。
与LLM的有效注意力方法进行比较。由于我们发现 LVLM 和 LLM 具有相似的注意力模式,头标记在推理过程中发挥着重要作用,因此我们想知道为 LLM 设计的相同注意力优化技术是否可以转移到 LVLM。遵循 StreamingLLM Shaw 等人中概述的方法。 (2023),我们实现了一种注意力优化方案,该方案在整个解码过程中结合了前四个token的注意力接收器和前四个token的局部注意力。表 5 的 (g) 行所示的实验结果表明,当应用这种特定的注意力模式时,LVLM 的性能会大幅下降。这表明图像标记与文本标记如何促进法学硕士内的信息处理存在根本差异。这一观察结果强调了进一步研究 LVLM 框架内图像标记的独特行为的必要性,表明将 LLM 注意力/KV 缓存优化机制直接应用于 LVLM 需要进行调整以适应视觉信息的独特特征。
5.5 局限性
FLOPs 减少率是基于考虑图像标记去除的理论计算,而实际的推理预算可能受到多种因素的影响,例如推理框架优化、特定 CUDA 内核和硬件。我们正在努力将 FastV 集成到主流 LLM 推理框架中,例如 vLLM Kwon 等人。 (2023)以获得更广泛的应用。
6 结论
在本文中,我们提出了 FastV,一种用于大型视觉语言模型的即插即用推理预算优化方法。我们对 FastV 的见解源于我们的观察,即尽管视觉标记占据了输入标记的很大一部分,但在流行的 LVLM 的深层中,视觉标记的注意力计算效率极低。 FastV 根据注意力分数排名修剪掉不必要的视觉标记,从而在不牺牲性能的情况下显着减少推理预算。