CVPR 2025 | PyramidDrop让推理训练飞起来

图片

来源:学姐带你玩AI
本文共1000字,建议阅读5分钟
本文提出了一种名为PyramidDrop的新方法。

图片

论文题目:

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

论文地址:

https://arxiv.org/pdf/2410.17247

代码地址:

https://github.com/Cooperx521/PyramidDrop


创新点

  • 通过实证研究发现,在LVLMs的浅层中所有视觉标记都是必要的,而深层中视觉标记的冗余性逐渐增加。这表明在不同深度的网络层中,视觉信息的重要性和冗余性是不同的。

  • 提出了PyramidDrop,一种新的图像标记减少策略。该策略将LVLM划分为几个阶段,在每个阶段末尾部分图像标记,以预定义的比例丢弃。

  • 之前在所有LVLM层中使用固定压缩比率的方法不同,PyramidDrop利用层级冗余性来压缩图像标记,并最终保留重要的视觉集中度。


方法

本文提出了一种名为PyramidDrop的新方法,旨在通过减少视觉冗余来加速大型视觉-语言模型(LVLMs)的训练和推理过程,同时几乎不影响模型性能。该方法基于对LVLMs中视觉标记冗余性的实证研究,发现模型的浅层需要所有视觉标记,而深层中视觉标记的冗余性逐渐增加。基于这一发现,PyramidDrop将LVLM划分为多个阶段,在每个阶段末尾部分图像标记,以预定义的比例进行丢弃,从而在保留浅层所有图像标记以避免信息丢失的同时,随着层的加深逐渐减少标记数量以最大化训练和推理效率。

视觉冗余性随网络层级的变化

图片

本图展示了视觉冗余性在不同层级的变化。左侧的图显示了在不同层级中保留不同比例的图像标记对LLaVA-1.5模型在TextVQA任务上的性能影响。可以观察到,模型对浅层的标记删除非常敏感,而深层的图像标记逐渐变得不那么关键。右侧的图展示了浅层和深层中注意力图的可视化,显示了模型在浅层关注大多数图像标记以全局理解图像,而在深层则倾向于关注与指令相关的少数标记。

PyramidDrop方法概览

图片

本图概述了PyramidDrop方法。该图描绘了将LLM的前向传播分为多个阶段,并在每个阶段结束时按预定义的比例丢弃部分图像标记的过程。基于轻量级注意力计算的丢弃操作,时间开销可忽略不计,并且根据此标准,LLM准确地选择与指令相关的图像标记。由于这种有效的冗余减少策略,平均序列长度迅速减少。

PyramidDrop策略下图像标记保留的可视化

图片

本图展示了使用PyramidDrop的LLM在不同阶段保留的图像标记的可视化。图中显示了当用户询问图像中的小物体时,LLM能够基于指令准确识别包含相关信息的区域并提供正确答案。这说明PyramidDrop有效地利用了LLM理解图像的特性。在推理过程中应用的标记删除并没有导致有价值的信息丢失;相反,PyramidDrop逐渐选择图像中的核心块,专注于最重要的区域。

实验结果

图片

本表格比较了PyramidDrop与其他高效推理策略在不同图像标记数量下的性能。通过保留平均192、128和64个图像标记,PyramidDrop在较低的压缩比率下实现了sota结果,展示了其在较低压缩比率下提供最佳性能的能力。此外,即使在压缩比率增加时,PyramidDrop仍保持了稳健的性能,突出了其强大的弹性。Conical Visual Concentration的设计在不牺牲性能的情况下最大化了效率。PyramidDrop作为一种仅用于推理的方法,在这里进行了评估。总的来说,展示了PyramidDrop与ToMe、FastV和SparseVLM等其他高效推理策略的对比。通过在不同数量的图像标记下进行比较,PyramidDrop在多个基准测试中展现出了优越的性能,同时实现了更高的FLOPs减少。这表明PyramidDrop在减少计算量的同时,能够有效地保留关键的视觉信息,从而在多模态任务中实现更好的性能。

编辑:于腾凯

校对:林亦霖

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

图片

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值