CVPR 2025 | PyramidDrop让推理训练飞起来-CSDN博客

来源：学姐带你玩AI
本文共1000字，建议阅读5分钟
本文提出了一种名为PyramidDrop的新方法。

论文题目：

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

论文地址：

https://arxiv.org/pdf/2410.17247

代码地址：

https://github.com/Cooperx521/PyramidDrop

创新点

通过实证研究发现，在LVLMs的浅层中所有视觉标记都是必要的，而深层中视觉标记的冗余性逐渐增加。这表明在不同深度的网络层中，视觉信息的重要性和冗余性是不同的。
提出了PyramidDrop，一种新的图像标记减少策略。该策略将LVLM划分为几个阶段，在每个阶段末尾部分图像标记，以预定义的比例丢弃。
之前在所有LVLM层中使用固定压缩比率的方法不同，PyramidDrop利用层级冗余性来压缩图像标记，并最终保留重要的视觉集中度。

方法

本文提出了一种名为PyramidDrop的新方法，旨在通过减少视觉冗余来加速大型视觉-语言模型（LVLMs）的训练和推理过程，同时几乎不影响模型性能。该方法基于对LVLMs中视觉标记冗余性的实证研究，发现模型的浅层需要所有视觉标记，而深层中视觉标记的冗余性逐渐增加。基于这一发现，PyramidDrop将LVLM划分为多个阶段，在每个阶段末尾部分图像标记，以预定义的比例进行丢弃，从而在保留浅层所有图像标记以避免信息丢失的同时，随着层的加深逐渐减少标记数量以最大化训练和推理效率。

视觉冗余性随网络层级的变化

本图展示了视觉冗余性在不同层级的变化。左侧的图显示了在不同层级中保留不同比例的图像标记对LLaVA-1.5模型在TextVQA任务上的性能影响。可以观察到，模型对浅层的标记删除非常敏感，而深层的图像标记逐渐变得不那么关键。右侧的图展示了浅层和深层中注意力图的可视化，显示了模型在浅层关注大多数图像标记以全局理解图像，而在深层则倾向于关注与指令相关的少数标记。

PyramidDrop方法概览

本图概述了PyramidDrop方法。该图描绘了将LLM的前向传播分为多个阶段，并在每个阶段结束时按预定义的比例丢弃部分图像标记的过程。基于轻量级注意力计算的丢弃操作，时间开销可忽略不计，并且根据此标准，LLM准确地选择与指令相关的图像标记。由于这种有效的冗余减少策略，平均序列长度迅速减少。

PyramidDrop策略下图像标记保留的可视化

本图展示了使用PyramidDrop的LLM在不同阶段保留的图像标记的可视化。图中显示了当用户询问图像中的小物体时，LLM能够基于指令准确识别包含相关信息的区域并提供正确答案。这说明PyramidDrop有效地利用了LLM理解图像的特性。在推理过程中应用的标记删除并没有导致有价值的信息丢失；相反，PyramidDrop逐渐选择图像中的核心块，专注于最重要的区域。

实验结果

本表格比较了PyramidDrop与其他高效推理策略在不同图像标记数量下的性能。通过保留平均192、128和64个图像标记，PyramidDrop在较低的压缩比率下实现了sota结果，展示了其在较低压缩比率下提供最佳性能的能力。此外，即使在压缩比率增加时，PyramidDrop仍保持了稳健的性能，突出了其强大的弹性。Conical Visual Concentration的设计在不牺牲性能的情况下最大化了效率。PyramidDrop作为一种仅用于推理的方法，在这里进行了评估。总的来说，展示了PyramidDrop与ToMe、FastV和SparseVLM等其他高效推理策略的对比。通过在不同数量的图像标记下进行比较，PyramidDrop在多个基准测试中展现出了优越的性能，同时实现了更高的FLOPs减少。这表明PyramidDrop在减少计算量的同时，能够有效地保留关键的视觉信息，从而在多模态任务中实现更好的性能。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。