An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
----
第 2 层之后,一张图像就只需要一半token:大型视觉语言模型的即插即用推理加速
1北京大学多媒体信息处理国家重点实验室
2阿里巴巴集团
摘要:
在这项研究中,我们发现了大视觉语言模型 (LVLM) 中的低效注意力现象,特别是在 LLaVA-1.5、QwenVL-Chat 和 Video-LLaVA 等著名模型中。我们发现,在流行的 LVLM 的深层中,视觉标记的注意力计算效率极低,这表明与文本数据处理相比,需要一种更稀疏的方法。为此,我们引入了 FastV,这是一种多功能的即插即用方法,旨在通过在早期层中学习自适应注意力模式并在后续层中修剪视觉标记来优化计算效率。我们的评估表明 FastV 能够大幅降低计算成本(例如,LLaVA-1.5-13B 的 FLOP 减少 45%),而不会牺牲各种图像和视频理解任务的性能。 FastV 的计算效率和性能权衡是高度可定制的和帕累托效率的。它可以压缩 13B 参数模型的 FLOP,以实现比 7B 参数模型更低的预算,同时仍然保持卓越的性能。我们相信 FastV 对于在边缘设备和商业模型中部署 LVLM 具有实用价值。代码发布于 https://github.com/pkunlp-icler/FastV。
图 1:FastV 的效率/性能权衡曲线。 x 轴代表不同 FastV 配置下的理论 FLOPs 减少率。 y 轴代表不同设置下的性能,我们报告 {Nocaps (Cider)、Flickr30k (Cider)、A-OKVQA (Acc)、MMMU (Acc)} 的平均分数。我们可以看到,FastV 可以实现 45% 的 FLOP 减少,并且对于不同模型几乎没有性能损失。
1 简介
大型视觉语言模型 (LVLM) 已成为计算机视觉和自然语言处理研究中的热点。我们见证了基于强大的 LVLM Liu 等人构建的巨大的创造性研究和应用。从描述给定的图片到浏览互联网。 使用智能手机。 并在现实世界中做出决策 。 具有视觉能力的大型语言模型正在重塑我们与人工智能系统交互的方式,而这不能仅通过语言或视觉单模态模型来实现。
目前,大多数流行的 LVLM 依赖于顺序视觉表示,其中图像在与语言提示一起输入 LLM 时会转换为数百或数千个标记。
由于 LVLM 利用其语言组件固有的高级紧急功能,因此它们同时面临与预算增量相关的计算复杂性激增。这种复杂性源于这样一个原则:大型语言模型 (LLM) 的熟练程度主要受其规模影响。在这种情况下,两个关键领域仍未得到充分探索:1)语言模型如何处理和解释图像? 2)虽然 LLM 的高效训练和推理引起了相当大的关注,但 LVLM 中的这些维度仍有待彻底检查和理解。
在本文中,我们揭示了这样一个事实:当前的 LVLM 在处理图像信息时实际上采用了一种低效的方式。具体来说,与 LLaVA 等基于标记的 LVLM 中的文本对应项相比,图像标记获得的注意力分数明显较低。浅层和深层之间的不平衡程度也有所不同。从我们对各种视觉语言任务的实验中,我们观察到,在著名 LVLM(例如 LLaVA 1.5)的深层(第 2 层之后),图像标记获得的平均注意力分数仅为 0.21%。系统提示。相比之下,这个数字在最初的两层中达到了50%。这些观察结果对 LVLM 中视觉信息的最佳利用提出了疑问。
为了解决这个问题,我们假设一个合理的解释是,视觉信号中的高冗余导致通过浅层中的自注意力机制将图像相关的、特定于指令的特征聚合到某些“锚”标记上。值得注意的是,这些锚标记很少是图像标记。在深层中,注意力集中在这些锚标记上,导致对图像标记本身的注意力显着减少。
这一现象启发我们提出 FastV,一种动态图像标记修剪方法,以减少 LVLM 的推理预算。我们的研究结果提出了一个有趣的可能性:鉴于由于注意力的减少,图像标记对更深层的输出生成的贡献微乎其微,为什么不考虑在这些阶段删除它们呢? FastV 在 LLM 的一个特定层实现了图像令牌修剪策略。在这一层之前,计算照常进行。除了这个选定的层之外,图像标记将根据其平均收到的关注分数进行重新评估。然后,低于预定义注意力分数阈值的令牌将在后续层中有选择地丢弃,通过关注最具影响力的令牌来简化流程。
与其他基于注意力的加速推理方法(例如稀疏注意力)相比,FastV 最显着的区别在于它直接消除了token标记。这种方法不仅绕过了自注意力模块的计算需求,还绕过了更深层次的前馈网络(FFN)模块。因此,FastV 理论上极大地减少了 FLOP,同时保持相对较高的性能,如图 1 在 LLaVA 和 Qwen-VL-Chat 模型上的实验所示。我们在 LLaVA-1.5-13B 模型上的实验表明,我们可以在第 2 层之后过滤掉 50% 的图像标记,而不会牺牲视觉语言任务组合的平均性能,包括 Nocaps Agrawal 等人的字幕任务。 (2019),Flickr30K Plummer 等人。 (2015),多项选择任务,如 A-OKVQA Schwenk 等人。 (2022),MMMU Yue 等人。 (2023),复杂的具体推理任务,如 PCA-Bench Chen 等人。 (2024;2023),需要详细 OCR 能力的任务,如 OCR-VQA Mishra 等人。 (2019) 以及更具挑战性的视频理解任务 Jang 等人。 (2017);徐等人。 (2017a;b)。我们对 A-OKVQA 的延