小模型也有大能量!MoPE-CLIP:教师模型极致压缩模型(华为)

作者 | AI引擎  编辑 | 极市平台

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心模型压缩技术交流群

本文只做学术分享,如有侵权,联系删文

导读

 

引入了MoPE指标,以精确评估CLIP模块在跨模态任务中的重要性。利用MoPE,提出了一种结合了先进蒸馏损失的结构化剪枝框架,为预训练和微调压缩提供了一个统一的解决方案。

视觉-语言预训练模型已经在各种下游任务上取得了令人印象深刻的性能。然而,它们庞大的模型尺寸限制了在计算资源有限的平台上的应用。我们发现,直接使用较小的预训练模型并在CLIP模型上应用基于大小的剪枝会导致灵活性降低和性能下降。近期针对VLP压缩的工作要么采用单模态压缩指标导致性能有限,要么涉及成本高昂的可学习掩码的搜索过程。

在本文中,首先提出了模块化剪枝误差(MoPE)指标,通过在跨模态任务上的性能下降准确评估CLIP模块的重要性。使用MoPE指标,我们引入了一个统一的剪枝框架,适用于预训练和特定任务微调压缩阶段。对于预训练,MoPE-CLIP有效地利用了教师模型的知识,显著降低了预训练成本同时保持了强大的零样本能力。对于微调,从宽度到深度的连续剪枝产生了高度竞争性的特定任务模型。在两个阶段的广泛实验表明了MoPE指标的有效性,并且MoPE-CLIP优于之前的VLP压缩方法。

1 Introduction

视觉-语言预训练(VLP)模型已经展示了强大的多模态表示学习能力。然而,它们令人印象深刻的性能是以大量参数为代价的,这限制了它们在资源受限设备上的使用。因此,探索适用于实际应用的紧凑型VLP模型至关重要。我们为不同的平台确定了两种压缩设置。

首先,许多边缘服务器缺乏处理整个预训练模型的计算能力。我们定义了“预训练阶段压缩”来解决这一问题,这涉及到压缩零样本VLP模型,并在数百万图像-文本对上进行预训练,以创建紧凑的通用模型。

其次,像手机这样的客户端通常需要针对各种场景的多个特定任务模型。为了满足这一需求,我们引入了“微调阶段压缩”。例如,CLIP在跨模态检索任务上表现出色,包括图像到文本检索(TR)和文本到图像检索(IR)。鉴于视觉或文本表示的可预计算和可离线存储的特性,我们的目标是压缩TR任务的视觉编码器以及IR任务的文本编码器。

为了降低推理成本,我们考虑使用较小规模的预训练模型,如文献[42]中各种尺寸基于ViT的CLIP模型。然而,单独对每个模型进行预训练在计算上成本很高,且有限的结构多样性可能无法满足各种部署需求。因此,我们深入研究更灵活的解决方案,利用剪枝技术压缩VLP模型。尽管如此,如图1所示,在CLIP上幅度剪枝的次优性能提出了一个挑战,即需要确定一个更具竞争力的剪枝策略。

970099c19ebfd5a883040765639f4901.jpeg

近期VLP剪枝方法可以大致分为两类。最简单的方式是应用单模态Transformer剪枝方法。然而,尽管在单模态变压器上,幅度和损失感知等指标的效率很高,但我们的实验发现,当直接将这些方法应用于多模态CLIP模型时,性能并不令人满意。EfficientVLM在预训练阶段使用了“每隔一个”剪枝策略,但这种通常用于BERT模型的方法在我们的实验中并没有达到最佳效果。这些发现强调了现有指标在评估模块对多模态任务影响方面的不足。另一方面,基于掩模的剪枝被用于识别关键模块。UPop引入了逐步搜索过程,这不适合预训练阶段。TinyCLIP建议对小模型进行权重继承的蒸馏,涉及一个耗时的多阶段蒸馏过程。

此外,TinyCLIP在LAION400M数据集上进行预训练,对于在有限数据上进行微调阶段压缩的有效性仍存在不确定性。总之,传统的剪枝指标在VLP剪枝方面需要改进,且基于掩模的剪枝在预训练阶段的效率不够高。因此,对于我们确定的这两个阶段压缩的统一解决方案尚未被探索。

为了应对这些挑战,我们引入了MoPE-CLIP,这是一种有效的无掩膜结构剪枝方法,适用于预训练和微调阶段的压缩。我们首先提出了模块级剪枝误差(MoPE)指标,该指标通过测量如果剪枝该模块,在多模态任务中的性能下降来量化一个模块的重要性。MoPE精确地评估了头部、FFN神经元在_width方向_以及Transformer层在_depth方向_的剪枝敏感性。

基于MoPE指标提出了一个统一的无掩膜剪枝框架。在预训练阶段,使用在MSCOCO验证集上的零样本检索来计算MoPE,并同时剪枝宽度和深度组件。在微调阶段,通过在下游任务上的性能下降来计算MoPE。为了实现更高的剪枝比例,我们在进行深度剪枝之前优先进行宽度剪枝。此外,从原始模型的对齐特征空间及文本/视觉编码器中提取了跨模态和单模态的知识,以增强剪枝模型的容量。

广泛的评估表明,MoPE-CLIP在MSCOCO检索任务上,与相同参数量的TinyCLIP 相比,TR@1和IR@1分别高出5.3%和4.0%,同时在11个零样本分类任务上超过了MCD 和ALIP,分别高出18.6%和17.0%。我们工作的贡献是:

引入了MoPE指标,以精确评估CLIP模块在跨模态任务中的重要性。利用MoPE,我们提出了一种结合了先进蒸馏损失的结构化剪枝框架,为预训练和微调压缩提供了一个统一的解决方案。MoPE-CLIP模型在广泛的实验中,在训练速度和准确性方面展现了当前最先进(SOTA)的性能,超过了不同领域中现有的基准。

2 Preliminary Study of Downsizing CLIP

在追求缩小如CLIP这样的视觉-语言模型的目标时,我们会考虑各种替代方案。在架构上,可以选择用较小模型中的对应部分替换编码器,如图1(b)中CLIP-ViT-B/32所示,或者,可以直接将编码器修剪到所需的任何尺寸。从实际角度来看,缩小模型可以在部署到下游任务之前进行预训练的过程中执行,也可以在客户端进行微调时进行。本节将初步探讨这些替代方案,为我们提出的修剪策略奠定基础。

替换为较小的模型证明是不令人满意的。我们用来自CLIP-ViT-B/32的一个较小的视觉编码器替换了CLIP原来的视觉编码器052f65365a307d942fa2a7ea5b1c8ebd.png,从而得到了缩小版的模型0a66195a820cd9c2386f5f7d01966f35.jpeg我们冻结了语言编码器,以方便像图像到文本检索(TR)这样的应用,其中语言编码器产生的文本特征经常未经修改就被存储。修改后的视觉编码器与冻结的语言编码器之间存在不一致,这需要进一步训练。

具体来说,我们在下游数据集MSCOCO上对线性层和视觉编码器进行微调,并采用跨模态对比损失函数fd90344d77495fca256efa946b857477.png,这是在图像和文本特征之间计算的InfoNCE损失。不幸的是,如图1(1)所示,6ce031a10aa4719f4f5dad6c9303048c.png与原始CLIP相比,性能大幅下降。这种下降可能归因于将来自不同视觉-语言模型的两个不相关的编码器对齐的艰巨挑战。这一观察结果,加上在选择目标大小方面的灵活性不足,阻止了我们进一步探索这种在预训练阶段的缩小策略。因此,我们将关注点转向了剪枝的替代选择。

需要对成功的剪枝进行进一步的研究。具体来说,我们实施了广泛采用但直接的剪枝策略91e87703e8bb049d40bca0f3c122d214.png,该方法选择性地剪除低于特定幅度阈值的注意力头和FFN神经元。调整这个阈值会导致剪枝模型的大小不同。我们使用了与8deab29e109e84c7ac078c9426da9283.png相同的目标函数来替代训练剪枝模型96fc7cbd199b9781cfa4336aef6b193c.png

尽管预期的目标是大小灵活,但ca464a4b55ab166ed275c761d620fdb0.png确保只有在至少保留了的参数时,才能提供相对令人满意的表现,如图1(1)(2)所示。迫切需要一种有效的剪枝策略,既能满足灵活性又能具备泛化能力,从而形成我们提出方法的基础。

预训练和微调修剪都值得考虑。 一个值得探讨的有趣问题是,在部署前进行预训练的视觉-语言模型是否优于在微调时修剪到相同大小的一个模型。130308225484f09d2a18311f5a5a11a0.png 和714179d71b2e050a0aaf781e9d1d4212.jpeg分别代表了使用我们提出的修剪框架的两个版本,我们将在下一部分详细介绍。从图1(1)中,我们可以得出结论,考虑到相同的目标大小,探索预训练修剪和微调修剪是值得的。首先,它们的应用场景如前所述是不同的。其次,在预训练期间进行修剪,当有更多并行数据可用于保留跨模态相关性时,证明更为有效;而在微调期间进行修剪虽然性能没有显著下降,但具有高效率的优势。

3 Method

我们在第3.1节引入了MoPE度量标准,以准确衡量跨模态任务中模块的影响力。在第3.2节和第3.3节,我们提出了我们的修剪框架和知识蒸馏损失,共同提升了两阶段压缩性能。

Module-wise Pruning Error

我们提出了一种新的度量标准,称为“模块化剪枝误差”(MoPE),用以评估CLIP模型中不同模块的重要性,例如多头注意力(MHA)头、前馈(FFN)神经元以及整个Transformer层。对于头和神经元,宽度剪枝中一些常用的度量标准,如幅度,无法准确捕捉它们对多模态任务的影响,导致次优的结果。对于Transformer层,现有研究主要采用针对BERT的深度剪枝的每隔一层策略。

我们在第4.3节的实验表明,这种简单策略应用于CLIP模型时是不够的。我们推测,每隔一层策略无法衡量剪枝对另一个编码器的影响,从而导致性能下降。这些结果表明,在选择适合剪枝VLP模型的合适度量标准方面提出了新的挑战。

为了克服这些问题,我们提出的MoPE指标有效地评估了模块相对于多模态下游任务的重要性,为宽度和深度剪枝提供了一个一致且更准确的衡量标准。特别是,我们将不同的头、神经元组和层视为不同的模块。从图2(d)中,模块c46c15eed600749e99f7d8c9a69bdf12.png的重要性是通过移除模块的CLIP模型83d0cccc8bd8baf08c6b4a62323ac802.jpeg与完整CLIP6b8fcf6eea057407ad5c2539ab02dc7f.jpeg模型的性能下降来实证衡量的,如下所示:

ab3ea1e32f01903a729c6f1631409fca.png

其中dc2e644759cbdf44d7787585182fedc7.jpeg是零样本评估函数,即检索任务中的召回平均值。一个模块8ea884a208011a121607f4a8d3278c7e.png如果具有更高的fa023f498c23546bfa70f5fed1e9d79b.png值,表明这个模块对剪枝更加敏感,并且在跨模态任务中发挥更为关键的作用。因此,在剪枝过程中,保留这类模块成为优先考虑的事项。通过利用8919c8fcafc88f79d32f54a6713ebe35.png,我们可以轻松创建代价表。这些代价表为不同的头(f07e807d5c0a1af91c40e7e666d2c35d.png)、神经元组(7059fff6daa86fbc96b4f9e8ed47e1f7.png)和层(01f31b39bf61d50756d39412a8105cbe.png)生成。它们作为选择最优架构的参考,使得我们能够在减少整体模型大小的同时保留关键模块。

Unified Pruning Framework Based on MoPE

近期关于视觉语言模型(VLM)的压缩工作主要集中在预训练阶段[57]或微调阶段[49]。然而,针对这两个阶段的综合解决方案尚未得到充分研究。利用我们的MoPE度量标准,我们引入了一个统一的剪枝框架,旨在解决这一挑战。

微调阶段。主要挑战在于提高特定任务剪枝模型的性能。为了实现高压缩比,在宽度和深度方向上探索了三种不同的剪枝策略。实证分析表明,先宽度后深度的剪枝范式最为有效,具体讨论见第4.3节。具体来说,CLIP的一个编码器有L层,每层由一个MHA块和一个FFN块组成。

首先,我们在宽度方向上压缩微调后的CLIP模型,如图2(a)所示。对于具有30b967651c787d0a46e7bf3ed00ffc06.png个头的MHA块,我们独立地剪除个头以及它们的Query、Key和Value输出矩阵。这个过程计算了MoPE指标,随后建立了头部的成本表ad4406f68b96359ae7ee59b2fe5a183c.png。对于FFN块,包括一个上投影和一个下投影层,其中是隐藏维度,是中间神经元的数量。由于枚举所有33c0153739025e1949b2544787108262.png个神经元是耗时的工作,我们将它们分为N组并测量每组的MoPE来得到dad2984db9a47b3327cfcc57655b7852.png。然后剪除不重要的头部和神经元组,并且我们使用知识蒸馏将固定教师模型的知识转移到最终的MoPE-CLIPw上。其次,在深度方向上压缩MoPE-CLIPw。我们计算了MoPE-CLIPw的个Transformer层的MoPE并创建了080f83aad2360084df5745924d882319.png。在6eef74d529ab421333903220a5a1a8ba.png的辅助下,我们精确评估层的优先级并剪除较不重要的层。最终通过从固定教师模型中蒸馏得到MoPE-CLIP。

预训练阶段。 我们在预训练阶段同时压缩大型模型的视觉和文本编码器,以生成更通用的小型模型。除了模型容量之外,训练成本是另一个至关重要的挑战。宽度优先然后深度策略涉及一个两阶段的重新训练过程,这会导致成本高昂。此外,在每个重新训练过程中获得的知识会随着预训练期间引入更多的图像-文本对而扩展。

因此,我们将宽度和深度剪枝合并到单一阶段,如图2(c)所示。特别是,我们并行计算零样本CLIP的视觉和文本编码器中的头、神经元组和层的MoPE指标。创建成本表后,剪枝过程在几秒钟内直接完成。然后我们在一个小型图像-文本预训练数据集(例如,CC3M数据集)上对剪枝模型进行预训练,并获得最终的MoPE-CLIP。我们在第4.2节的实验表明,我们的MoPE-CLIP在很大程度上优于几个高效的预训练模型,这表明大型模型的剪枝为预训练提供了更好的初始化。

剪枝效率。 计算每个模块的MoPE指标需要几秒钟,而且所有模块的计算都可以并行化。因此,建立成本表的总时间远小于完整的微调或预训练过程。随后,可以直接以不同的比例进行剪枝,以获得一系列紧凑型模型。

Distillation to MoPE-CLIP

与先前应用于ViT或BERT的蒸馏方法相比,我们设计了一种先进的蒸馏损失,有效地将跨模态和单模态知识从大型CLIP(教师模型)传递到如图2(b)所示的修剪过的MoPE-CLIP(学生模型)。

跨模态知识。CLIP模型计算了用于检索和分类任务的跨模态相似性矩阵。教师模型展现出更为紧密对齐的文本和视觉嵌入空间,这使它们的相似性矩阵中包含了更多有价值的知识。为了增强剪枝模型的跨模态能力,我们最小化了学生相似性矩阵34faff81888d54efe248486caaee78eb.png与教师相似性矩阵52100d7489c275af5aea804eadc36429.png之间的软交叉熵损失(SCE),即:

1d75354685b2fb71171dfb5bef4b8608.png

单模态知识。 教师模型拥有更强大和优秀的视觉或文本编码器。因此,将嵌入在这些较大编码器中的知识转移到学生模型上变得至关重要。遵循[19],我们使用均方误差(MSE)损失,以确保学生模型特征86c3c1818c3b94531c2584618e5d50e7.jpeg尽可能与教师模型特征c3f539bdcf1f937b38887cc148b69b6e.png相似:

a1ad4184d7542d6c0db63684efab24ab.png

此外,我们还执行中间层的蒸馏,以转移隐藏状态知识(即每个Transformer层的输出) ,从教师模型到学生模型。深度剪枝的学生模型将模仿教师模型中保留的中间层。隐藏损失为

9353d211052ac84710a43b8d73b36c7a.png

学习目标。 结合跨模态知识和单模态知识,我们进一步引入了对比损失(2afbc5f333f5af936f1e3fbfe5ae47c6.png)。因此,最终的训练目标为:

9bfb07c9096262d7a6c29da3c40fd078.png

默认情况下,不调整并设置,以确保这些损失的平衡幅度。分别在使用相似参数的情况下,MoPE-CLIP 表现最佳,并且超过了CLIP-ViT-B/32 2.2% TR@1 和 SE-CLIP 13.6% TR@1。在2倍压缩比的MoPE-CLIP 也优于SE-CLIP 和 CLIP-ViT-B/32。

这些结果表明,与预训练的小模型和替换编码器模型相比,MoPE-CLIP 和 MoPE-CLIP 在保持灵活性的同时,提供了更好的小型CLIP模型。此外,我们观察到知识蒸馏过程实际上提高了图1中CLIP-ViT-B/32 和 SE-CLIP 的TR@1。这证明了教师知识的有效性,但是 ViT-L14 和 ViT-B32 之间的架构差异限制了最终性能。

与其他剪枝方法的比较。 我们将MoPE-CLIP与最先进的VLP压缩方法UPop进行了比较。我们还将在CLIP架构上扩展单模态剪枝方法,包括动态剪枝方法DynaBERT和基于幅度的剪枝。值得注意的是,除了UPop的结果来自原始论文外,蒸馏被应用于DynaCLIP和MagnCLIP。

如表3所示,在相同深度和宽度下,MoPE-CLIP显著优于其他DynaCLIP和MagnCLIP,尤其是在TR@1上。与UPop相比,MoPE-CLIP具有1.53亿视觉编码器,称为整个模型有2.34亿参数,在所有指标上大幅超过具有4.74亿参数的UPop-CLIP。

a706ef032215705d65e87e2e4999a58a.jpeg

此外,表4显示,即使在4倍压缩比下,我们的MoPE-CLIP在文本到图像检索任务上仍然保持高性能,与教师模型相比,IR@1仅下降了0.8%。在附录C.1中报告了更多剪枝比下的性能,并将UPop与KD进行了比较。在附录C.3中,我们分析了MoPE-CLIP与DynaCLIP之间保留头部的差异,这进一步证明了MoPE指标的准确评估。

13334bbddafc187e6ec51d1beb1e3209.jpeg

Pre-training Stage Compression

实验设置

在预训练阶段,我们压缩零样本CLIP-ViT-L/14(ZS-14)模型以获得紧凑的通用模型。随后,我们在小规模预训练数据集CC3M上预训练我们的MoPE-CLIP和各种基线。为了进一步评估MoPE-CLIP模型的能力,我们使用更大的数据集,包括CC12M和YFCC15M,来扩大训练规模。此外,我们在OpenCLIP ViT-B/16上评估剪枝方法,并在附录C.5中报告结果。

实现细节:我们同时修剪了ZS-L14的视觉和文本编码器。对于视觉编码器,采用了宽度和深度修剪,并将编码器压缩到86M个参数,这与CLIP-ViT-B/32相似。对于文本编码器,在两个修剪比例下沿宽度方向压缩它,产生了15ae57b30d071eb8f43edcb05b87e6ae.png9d83e3ae99a470bae6a2dde2888d5ef2.png还把视觉和文本编码器都修剪到半宽,产生了MoPE-CLIP large。该模块的重要性在MSCOCO验证数据集上进行评估,召回平均值作为MoPE的指标。

零样本图像文本检索。 表5展示了在MSCOCO和Flickr30K数据集上的零样本检索结果。d6a730abc2b8ee4de8f16d927bbfac0a.png在所有召回率指标上始终超过CLIP-ViT-B32。d60241d70046887cc5443b1984c19d1e.png保持竞争力,并且明显优于d21508387e1b5aa52ff9b10dc001272e.png

3a6ebd546050b8d88d384777e547142a.jpeg

此外,与之前的有效预训练方法相比,在CC3M上预训练的MoPE-CLIPbase在MSCOCO数据集上达到52.8%的TR@1和37.3%的IR@1,这比在YFCC15M上预训练的ALIP 分别高出6.0%和8.0%。这一改进主要归功于剪枝的大型模型为预训练视觉语言模型提供了更好的初始化。

零样本分类。 我们采用在MSCOCO验证数据集上的召回平均值作为MoPE度量,这反映了多模态任务中的模块影响力。为了展示召回平均值在单模态任务上的鲁棒性,我们进一步将我们的MoPE-CLIP base与其他有效的预训练方法在零样本图像分类任务上进行比较。

790269bfbc63c17c93f1213104ab53fc.jpeg

SLIP,DeCLIP,和UniCLIP结合了细粒度的监督以减少数据需求。ALIP和MCD提出了新的框架以减少图像-文本对中的噪声和错位。我们遵循CLIP使用相同的提示模板。表6展示了在11个广泛使用的基准上的结果。我们在YFCC15M数据集上预训练的MoPE-CLIP base显著超越了之前的方法,并创造了新的最先进成果,表明了MoPE-CLIP对于分类任务的有效性。

与VLP压缩方法的比较 我们采用了最先进的视觉-语言压缩方法,EfficientVLM和TinyCLIP,来压缩零样本CLIP-ViT-L/14模型。这些压缩模型然后使用各自的损失函数在CC3M数据集上进行预训练。正如表5所示的零样本检索结果明确所示,MoPE-CLIP large表现最佳。

值得注意的是,即使MoPE-CLIP base 将参数减少到66M,仍然超过了TinyCLIP和EfficientVLM。在图3中进一步比较了这些模型的训练过程。MoPE-CLIP在较短的训练时间内取得了具有竞争力的结果,突显了MoPE度量在保留关键模块方面的重大贡献。与专注于跨模态亲和力的TinyCLIP,以及强调单模态知识转移的EfficientVLM相比,我们的方法结合了跨模态和单模态蒸馏,证明在提升修剪模型能力方面更为有效。

20a8250f7db5516b10286c847d529f72.jpeg

层内的神经元 如表8所示,MoPE指标以明显的优势超越了其他策略。值得注意的是,当剪枝三层时,隔层策略表现不佳。假设简单地减少Transformer编码器中每隔一个层可能不会像在[12]中证明的那样影响单模态任务的模型容量。然而,其他编码器的不可用导致了跨模态任务性能的下降。这些发现指出了在选择CLIP模型中的层次减少策略时的重要性,而MoPE指标提供了一种简单而又有价值的方法。

6bbeb3efb13ad26a341b2c00eba4edfc.jpeg

剪枝框架的影响。 在微调阶段,我们进一步探索了另外两种策略,包括先以“深度优先”的方式进行剪枝,然后进行“宽度剪枝”,以及同时进行“宽度和深度”剪枝。如表9所示,先“宽度”后“深度”的策略表现出最佳性能,而“深度优先然后宽度”以及“宽度和深度”策略则稍显落后。

4f02ae3fb62c39a708ddd298c029f0c9.jpeg

这种差异可能与不同层之间隐藏状态的顺序计算有关,正如在[17]中讨论的,这使得准确评估在层数减少的模型中头或神经元的重要性变得具有挑战性。此外,微调数据集可能不足以完全恢复模型的容量。因此,在微调阶段,“先宽度后深度”的策略是创建更具竞争力的较小模型的最佳选择。相比之下,在预训练阶段,采用“宽度和深度”剪枝策略更为方便高效,通过大量图像-文本对语料库可以促进性能的恢复。

知识蒸馏的影响。 我们对第3.3节设计的蒸馏目标进行了消融研究。我们研究了MoPE-CLIP V上的学习过程,表10的结果展示了我们所有蒸馏损失的效力。我们观察到,所有经过蒸馏的模型都明显优于未经蒸馏的模型,这证明了跨模态和单模态知识的重要性。

6f6476bba0686b8396bc090582a90d93.jpeg

重要的是,"450ba920cfc17bd67f5fc9cddf079026.png"模型的TR@1显著下降,从69.7%降至67.7%,这表明教师模型中的中间层知识对于重新训练MoPE-CLIP模型至关重要。然而,ViT-B/32和ViT-L/14之间在Patch数量上的差异导致隐藏蒸馏应用于CLIP-ViT-B32和d5ece1c210d05a2e5b3e5c2aa6cdad3b.png时失败。因此,知识蒸馏对于预训练的小型模型和替代编码器模型的效果在很大程度上被减弱了。相比之下,MoPE-CLIP与教师模型共享相似的架构,使其能够获取更多的知识。

可视化。 为了更好地理解架构对检索任务的影响,利用Grad-CAM来可视化与字幕输入相对应的关键图像区域。Grad-CAM是在视觉编码器最后一层的平均自注意力图上计算的,其中通过对比损失8c76e92292340fe07c68f3034616b383.jpeg获取梯度。CLIP-ViT-L/14 (FT-L14)、CLIP-ViT-B/32 (FT-B32)、SE-CLIP  和 MoPE-CLIP 的结果展示在图4中。

073a2287145ad2dc309a32a4207d3146.jpeg

我们观察到来自FT-L14的视觉化结果比FT-B32更为精确。FT-L14模型的Patch尺寸较小,为14,因此能定位到更详细的区域,比如中间例子中的“飞盘”。

此外,MoPE-CLIP V能有效捕获到类似于FT-L14的某些重要区域。在顶部例子中,FT-B32和SE-CLIP V都遗漏了“一辆白色公交车”,同时在底部例子中丢失了“一只猫”。而MoPE-CLIP V正确捕捉到了这些重要物体。这表明我们提出的MoPE-CLIP V为检索任务提供了富有成效的信息。

5 Conclusion

在本文中研究了多种缩小VLP模型的方法,并专注于探索更好的剪枝解决方案。提出了模块级剪枝误差(MoPE)指标,为准确衡量CLIP模块的重要性提供了一种方法。在MoPE指标的基础上引入了一个统一框架和一个先进的蒸馏损失,用于在预训练和微调阶段的结构化剪枝。大量实验已经证明MoPE-CLIP在各种下游任务中取得了惊人的成功。

参考

[1].MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

cda5d1bfebe20897f3de2ae3f13e19b6.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

79e4fe6f460bc5f8e0c163c5aa358662.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

95166f1afe503a288b7f8874e0bf02ec.jpeg

④【自动驾驶之心】全平台矩阵

35bf416cfeb025dceb9cf980f2422efd.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值