《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training》中文校对版

醒了就刷牙

于 2024-09-16 21:18:28 发布

阅读量1k

点赞数 14

分类专栏：论文文章标签：人工智能

本文链接：https://blog.csdn.net/buyaotutou/article/details/142306681

版权

论文专栏收录该内容

34 篇文章 0 订阅

订阅专栏

系列论文研读目录

文章目录

系列论文研读目录
摘要
1.介绍
2.相关工作、
3.多模态强化训练
- 3.1.数据集强化
- 3.2.训练
4.架构、
- 4.1.文本编码器
- 4.2.图像编码器
5.实验
6.结论

摘要

图像-文本基础模型（如CLIP）的对比预训练在广泛的下游任务中表现出出色的零拍摄性能和提高的鲁棒性。然而，这些模型利用具有显著存储器和延迟开销的大型基于变换器的编码器，这对部署在移动的设备上提出了挑战。在这项工作中，我们介绍MobileCLIP -一个新的家庭的高效的图像-文本模型优化运行时性能沿着与一种新颖的和有效的训练方法，即多模态强化训练。所提出的训练方法利用来自图像字幕模型的知识转移和强CLIP编码器的集成来提高高效模型的准确性。我们的方法通过将额外的知识存储在增强的数据集中来避免训练时的计算开销。MobileCLIP为几个数据集上的零射击分类和检索任务设置了一个新的最先进的延迟-准确性权衡。我们的MobileCLIP-S2变体比之前基于ViT-B/16的最佳CLIP模型快2.3倍，同时更准确。我们通过训练基于ViT-B/16图像主干的CLIP模型，进一步证明了我们的多模态强化训练的有效性，并在38个评估基准上实现了比以前最好的平均性能提高2.9%。此外，我们表明，与非强化CLIP训练相比，所提出的方法实现了10×-1000×的学习效率提高。代码和型号可在https://github.com/apple/ml-mobileclip上获得

1.介绍

大型图像-文本基础模型，如CLIP[47]，已经在广泛的下游任务[30]中展示了出色的零拍摄性能和改进的鲁棒性[15]。然而，在移动的设备上部署这些模型是具有挑战性的，因为它们的大尺寸和高延迟。
我们的目标是设计一个新的家庭对齐imagetext编码器适用于移动的设备。实现这一目标面临两大挑战。首先，在运行时性能（例如，延迟）和不同架构的准确性，因此我们应该能够快速彻底地分析不同的架构设计。CLIP模型的大规模训练是计算昂贵的，阻碍了快速开发和探索有效的架构设计。另一方面，标准的多模态对比学习[47]在小规模上导致了较差的准确性，这不能提供有用的信号来指导建筑设计选择。其次，较小架构的容量降低导致精度低于标准，可以通过更好的训练方法来提高精度。
为了克服这些挑战，我们开发了一种基于数据集强化方法的新训练方法[14]：i）使用额外信息强化一次数据集，ii）多次使用强化的数据集进行实验。对于给定的计算预算，与原始数据集相比，使用增强数据集进行训练可以提高准确性。我们提出了一个多模态的数据集强化变体，用于训练高效的CLIP模型。具体来说，我们通过从预训练的CLIP模型的强大集合中添加合成标题和嵌入来增强图像-文本DataComp[18]数据集（图3），获得DataCompDR。我们介绍了增强数据集的两个变体，DataCompDR-12M适合于高效模型设计的快速迭代，DataCompDR-1B用于最佳大规模训练性能。
与标准CLIP培训相比，使用DataCompDR进行培训显示出显著的学习效率提高。例如，使用8×A100 GPU的单个节点，当在DataCompDR-12 M上从头开始训练基于ViT-B/16 [12]的CLIP时，我们在大约一天内在ImageNet-val [8]上实现了61.7%的零射击分类。使用DataCompDR-1B进行的训练在几个指标上设置了新的最先进的性能（图2），同时与以前的工作相比，仍然使用了训练计算预算的一小部分。
DataCompDR数据集改进了所有指标。采用ViT-B/16图像编码器的CLIP型号的零拍摄性能。
利用DataCompDR，我们探索了设计空间，并获得了一个新的移动友好的对齐图像文本编码器系列，称为MobileCLIP，与以前的作品相比，具有更好的延迟精度折衷（图1）。我们利用几种架构设计技术来获得高效的图像和文本编码器，包括结构重新参数化[9-11，21，61]和卷积令牌混合[62]。MobileCLIP包括S 0、S1、S2和B变体，涵盖不同移动的应用的各种尺寸和延迟。我们最快的变体MobileCLIP-S 0比标准OpenAI ViT-B/16 CLIP模型[47]快约5倍，小3倍，但具有相同的平均准确度。我们的贡献如下：（1）我们设计了一个新的移动友好型CLIP模型系列，MobileCLIP。MobileCLIP的变体在图像和文本编码器中使用具有结构重新参数化的混合CNNtransformer架构，以减少大小和延迟。（2）我们引入了多模态强化训练，这是一种新的训练策略，它结合了来自预训练图像字幕模型和强大CLIP模型集合的知识转移，以提高学习效率。（3）我们介绍了我们的增强数据集的两个变体：DataCompDR-12 M和DataCompDR-1B。使用DataCompDR，我们展示了与DataComp相比10倍至1000倍的学习效率。（4）MobileCLIP系列在零触发任务上获得了最先进的延迟精度折衷，包括标记新的最佳ViT-B/16 CLIP模型。
MobileCLIP模型快速准确。公开可用的CLIP模型与在DataCompDR数据集上训练的MobileCLIP的比较。延迟在iPhone 12 Pro Max上测量。

2.相关工作、

CLIP的高效学习。 人们可以通过利用增强的培训目标来提高学习效率。示例包括图像掩蔽[17，37，55，71]，单峰自我监督[35，43]，细粒度图像-文本对齐[72]，图像-文本-标签空间中的对比学习[69]和成对Sigmoid损失[77]。CLIPA[34]建议在多分辨率下进行培训，以提高培训的成本效益。这些方法是对我们提出的方法的补充。
CLIP训练数据集通常包括在网络规模上获得的噪声图像文本对。自最初的CLIP模型[47]以来，一些工作已经证明了大规模和过滤数据集的改进结果[16，18，51，52，77]。作为数据收集和过滤的补充，最近的工作表明，使用从预训练字幕模型生成的视觉丰富的合成字幕沿着真实的字幕可以提高CLIP模型的质量[32，45，70]。我们提出的增强多模态数据集也受益于综合生成的字幕，我们表明这对提高学习效率至关重要。
以前的作品，如DIME-FM [56]，扩展了单峰蒸馏[26]，重点是零射击分类。TinyCLIP [68]通过跨模态亲和力模仿和权重继承来训练紧凑的CLIP模型。多模态蒸馏也在学生是特定任务的融合视觉语言模型的设置中进行了探索[31，64，65]。我们提出的多模态强化训练还包括跨模态亲和力模仿[68]。此外，我们将单峰模型集成[33，46]扩展到多模态设置，并存储从CLIP模型集成中获得的目标。
最近提出了离线知识蒸馏方法[14，54，76]，以减轻由于运行大型教师模型而导致的培训时间开销成本。我们将数据集强化策略[14]扩展到CLIP的多模式设置。我们提出的增强多模态数据集在不增加训练时间计算开销的情况下显著提高了准确性。
CLIP的高效架构。 最近，已经出现了广泛的架构，已经显示出很大的希望，在资源有限的设备上完成视觉任务。这些架构可以大致分为纯卷积[11，23，27，28，41，48，50，61]，基于Transformer的[12，40，59]和卷积-Transformer混合体[22，36，38，44，53，62]。类似地，有基于Transformer的[63]和卷积-Transformer混合体，如[20，67]用于文本编码。已经有像[68]这样的作品，修剪ViT架构以获得更小更快的CLIP模型，或者像[3]这样的作品减少了图像-文本标记以更快地推断视觉语言模型。这些模型对于在移动终端上部署来说仍然非常大且效率低下。在我们的工作中，我们为视觉和文本模态引入了一种改进的卷积转换器混合架构，该架构比最近的最先进技术有所改进，如[22，38，44，53]。[3，68]中介绍的优化可以用于进一步提高我们模型的效率。

3.多模态强化训练

我们的多模态强化训练利用来自图像字幕模型的知识转移和用于训练目标模型的预训练CLIP模型的强大集合。它由两个主要部分组成：i）通过合成字幕利用图像字幕模型的知识，以及ii）从强大的预训练CLIP模型的集合中提取图像-文本对齐的知识。我们遵循[14]的数据集强化策略，并将额外的知识（合成字幕和教师嵌入）存储在数据集中（见图3），从而避免任何额外的训练时间计算开销，例如评估字幕模型或集成教师。

3.1.数据集强化

在这里插入图片描述
合成字幕。 用于训练CLIP模型的图像-文本数据集大部分来源于Web，Web本身具有噪声。DataComp [18]和数据过滤网络[16]等最近的研究成果通过使用广泛的过滤机制来提高网络数据集的质量。虽然这些过滤后的数据集具有较低的噪声，但是标题可能仍然不够描述。为了提高字幕的视觉描述性，我们使用流行的CoCa [74]模型，并为每个图像x（i）img生成多个合成字幕x（i，s）syn（见图3a）。关于每幅图像生成的合成字幕数量的说明，请参见第5.1.图5显示了由CoCa模型生成的合成字幕的一些示例。与合成字幕相比，真实的字幕通常更具体，但噪声更大。我们显示（表3a）真实的字幕和合成字幕的组合对于获得最佳零镜头检索和分类性能是至关重要的。
在这里插入图片描述

在这里插入图片描述

图像增强。 对于每个图像x（i）img，我们使用一个参数化的增强函数A生成多个增强图像x（i，j）img：x（i，j）img = A（x（i）img; a（i，j）），（1）其中a（i，j）是足以从x（i）img中再现x（i，j）img的增强参数（见图3a）。在选项卡中提供了每个图像所用增强的数量和不同类型的消融。分别如图4a和13所示。
在这里插入图片描述
文工团的老师。模型组装是一种广泛使用的技术，用于从一组独立训练的模型中创建更强的模型[33，46]。我们将此技术扩展到多模态设置，并使用K个CLIP模型的集合作为强大的教师（参见第5.1用于我们的教师消融）。我们计算这些模型的特征嵌入，用于增强图像x（i，j）img和合成字幕x（i，s）syn，获得第k个教师模型的dk维向量ψ（i，j，k）img和ψ（i，s，k）syn。我们还计算了地面实况字幕x（i）txt的教师嵌入ψ（i，k）txt（见图3b）。
强化数据集。我们将CLIP教师的图像增强参数a（i，j）、合成字幕x（i，s）syn、特征嵌入ψ（i，j，k）img、ψ（i，s，k）syn和ψ（i，k）txt作为附加知识与原始图像x（i）img和字幕x（i）txt沿着存储在数据集中（参见图3c）。请注意，数据集强化是一次性成本，通过几次有效的模型训练和实验来分摊。

3.2.训练

在这里插入图片描述
损失函数。直观地，我们的损失函数将来自多个图像-文本教师编码器的图像-文本对之间的亲和度矩阵提取到学生图像-文本编码器中。设B表示一批b（image，text）对，Ψ（k）img，Ψ（k）txt ∈ Rb×dk分别是批B的教师集合中第k个模型的dk维图像和文本嵌入矩阵.相应地，我们用Φimg，Φtxt ∈ Rb×d来表示目标模型的图像和文本嵌入矩阵。对于给定的U和V矩阵，设Sτ（U，V）∈ Rb×B表示它们的相似矩阵，该相似矩阵是通过对UV/τ进行按行的Softmax运算而得到的，其中τ是温度参数。我们的训练损失由两部分组成，标准CLIP [47]损失LCLIP（B）和知识提炼损失LDistill（B）：L总（B）=（1 − λ）L削波（B）+ λ L蒸馏（B），（2）L蒸馏（B）= 1 2 LI 2 T蒸馏（B）+ 1 2 LT 2 I蒸馏（B），LI 2 T蒸馏（B）= 1 bK XK k=1 Ψ（Sτk（KL（k）img，Ψ（k）txt）（Φimg，Φtxt）），其中KL表示Kullback-Leibler散度，LT 2 I Distill是通过交换LI 2 T Distill的文本和图像嵌入项来计算的，λ是折衷参数。

在这里插入图片描述

高效训练。在增强数据集上进行训练与修改数据加载器和损失函数一样简单，以利用数据集中存储的额外知识，并且与标准CLIP训练具有相同的训练成本（请参见表（见第4d段）对于每个样本，我们从数据集中读取图像x（i）img和相应的地面实况说明x（i）txt。然后，我们随机加载存储的增强参数a（i，j）之一，并再现增强图像x（i，j）img。我们还随机加载合成字幕x（i，s）syn中的一个。最后，我们读取与K个教师模型相对应的存储的嵌入ψ（i，j，k）img、ψ（i，s，k）syn和ψ（i，k）txt。使用该加载的数据，我们构造两个数据批，对应于（增强图像，真实的字幕）对的Breal和对应于（增强图像，合成字幕）对的Bsyn，并且在等式（1）中计算我们的训练损失。(2)分别用于Breal和Bsyn。我们的最终损失由XB ∈{Breal，Bsyn} LTotal（B）给出。(3)请注意，我们可以在学生模型的前向传递之后计算总损失，而无需任何额外的教师相关计算，因为计算蒸馏损失所需的教师嵌入可作为数据集的一部分容易地获得。

4.架构、

4.1.文本编码器

CLIP [47]模型将视觉Transformer与由自注意层组成的经典Transformer配对，用于文本编码。虽然此模型很有效，但更小、更高效的模型更适合移动的部署。最近，类似[67]的工作表明卷积对文本编码同样有效。相比之下，我们发现纯卷积架构的性能明显低于其对应的Transformer器架构。本文提出了一种基于一维卷积和自注意层的混合文本编码器，该编码器不使用完全卷积结构进行文本编码。
对于混合文本编码器，我们引入了Text-RepMixer，它是一种卷积令牌混合器，它将训练时间和推理时间结构解耦。Text-RepMixer是受[62]中介绍的可重新参数化卷积令牌混合（RepMixer）的启发而设计的。在推断时，跳过的连接被重新参数化。该体系结构如图4所示。对于前馈网络（FFN）块，我们用与令牌混合器类似的核维度的附加深度方向1-D卷积来扩充线性层，以获得ConvFFN块。该结构类似于[20]中使用的卷积块，主要区别在于使用批量范数以及将其与后续深度方向1D卷积层折叠以进行有效推断的能力。Text-RepMixer的设计选择在附录F中讨论。为了找到我们的混合文本编码器的最佳设计，我们从一个纯卷积文本编码器开始，并开始用自关注层系统地替换卷积块（参见表（五）。选项卡.1，展示了我们的文本编码器与CLIP的基本文本编码器相比的有效性。当与ViT-S/16等高效主干搭配使用时，我们的模型更小、更快，并获得与较大的基本文本编码器类似的性能。
在这里插入图片描述结构上的消融。MCt中自我注意层数的影响。我们训练30k迭代。
卷积和可重新参数化块的架构，称为MobileCLIP的文本编码器MCt中使用的Text-RepMixer。

4.2.图像编码器

最近的研究表明，混合视觉Transformer在学习良好的视觉表示方面具有很好的效果。对于MobileCLIP，我们介绍了一种改进的混合视觉Transformer MCi，它基于最新的FastViT [62]架构，具有以下几个主要区别。在FastViT中，FFN块使用4.0的MLP扩展比。最近的工作，如[39，68]，揭示了FFN块的线性层中的大量冗余。为了提高参数效率，我们只需将扩展比降低到3.0，并增加架构的深度。通过这样做，我们在图像编码器中保留了相同数量的参数。附录A中描述了三种变体的载物台配置。MCi 0具有与[61]类似的级配置。MCi 1是MCi 0的更深版本，而MCi 2是MCi 1的更宽版本。我们的变体中的阶段计算比率与[61]类似。我们发现这种设计对延迟的影响很小，但模型的容量得到了很好的改善，反映在下游任务性能上，见附录B。在选项卡中1，我们将MCi编码器与类似尺寸的FastViT-MA 36在CLIP模型中用作图像编码器时进行了比较。我们的模型获得了更好的零触发IN-val性能，同时速度提高了16.3%。
在这里插入图片描述 (a)Base vs. MCt文本编码器与ViT-S/16。(b)FastViT与MCi图像编码器与Base文本编码器。在DataCompDR-12 M上进行了30 k iters（约0.24B个可见样本）的训练。

5.实验

在本节中，我们将介绍我们的实验装置和结果。
评价我们使用DataComp [18]的评估基准来评估图像-文本模型。具体而言，我们报告了ImageNet验证集[8]的零激发分类及其分布偏移，包括ImageNetV 2 [49]、ImageNet-A [25]、ImageNet-O [25]、ImageNetR [24]和ObjectNet [1]，我们将其平均值报告为IN-Shift。对于零镜头图像-文本检索，我们在MSCOCO [5]和Flickr 30 k [73]数据集上报告了recall@1。此外，我们还报告了DataComp评估中所有38个数据集的平均性能。我们还在可视化基因组关系、可视化基因组属性、Flickr 30 kOrder和COCO-Order数据集上评估了我们的模型，这些数据集是最新的属性、关系和顺序（ARO）基准测试的一部分[75]。在其余部分中，IN-val指的是ImageNet验证集上的零激发准确度，Flickr 30 k指的是图像-文本和文本-图像检索的平均零激发调用@1。所有报告的指标都是在不进行任何微调的情况下获得的。
培训设置。我们有两个装置用于消融和大规模实验。对于消融，我们使用8，192个全局批量大小和8×NVIDIA-A100- 80 GB GPU，在具有1280万个图像-文本对的数据集上进行30- 45 k次迭代。对于大规模训练，我们使用全局批量65，536，256×A100 GPU进行20万次迭代。所有模型都是从头开始训练的（详见附录B）。
数据集。我们在DataComp数据集的图像-文本数据集上进行训练[18]。我们使用1.28B样本的Bestpool过滤子集，在最大数据集规模下为它们提供最佳性能。我们将此集合称为DataComp 1B。为了快速进行实验，我们创建了一个由12.8M个均匀采样对组成的固定子集，我们称之为DataComp 12 M。[18]中未研究DataComp-12 M，但在我们的实验中，我们观察到DataComp-12 M与具有可比样本的DataComp-介质的Bestpool子集相比始终实现了更好的性能。
DataCompDR：增强型数据组件。我们使用我们的多模态数据集增强策略来增强DataComp数据集。特别地，我们通过加强DataCompDR-1B和DataCompDR-12 M来创建DataCompDR-1B和DataCompDR-12 M。我们有一个一次性的生成过程，其成本在多个架构和广泛的消融中摊销。我们使用OpenCLIP [29]中的coca_ViT-L-14模型和强随机图像增强（DataCompDR-1B为10个，DataCompDR 12 M为30个）为每个图像生成5个合成字幕。我们计算了两个强教师（ViT-L-14，具有预先训练的权重datacomp_xl_s13b_b90k和OpenCLIP中的openai）的集合在增强图像以及真实的和合成字幕上的嵌入。嵌入是2×768-D向量的1536-D级联。我们使用无损压缩和BFloat 16存储所有增强。我们将在第5.1.DataCompDR的一个可见样本是一个三元组：一个随机增强的图像、一个地面实况字幕和一个随机选取的合成字幕。
MobileCLIP体系结构。我们的MobileCLIP架构是成对的MCi：MCt架构。特别是，我们创建了3个小变体MobileCLIPS 0（MCi 0：MCt）、MobileCLIP-S1（MCi 1：Base）和MobileCLIP-S2（MCi 2：Base），其中Base是一个12层Transformer，类似于基于ViT-B/16的CLIP的文本编码器[47]。我们还训练了一对标准的ViT-B/16：Base，并将我们的训练模型称为MobileCLIP-B。
基准测试延迟。为了测量延迟，我们使用与各个方法对应的输入大小。对于iPhone延迟测量，我们使用Core ML Tools（v7.0）[58]导出模型，并在安装了iOS 17.0.3的iPhone12 Pro Max上运行。所有模型的批次大小均设定为1。我们遵循与[61]中描述的相同方案。

5.1.消融研究

在本节中，我们将分析培训和架构中每个组件的效果。除非另有说明，否则我们使用ViT-B/16：在DataComp-12 M上训练的基础编码器，用于30 k次迭代，全局批量大小为8 k（2020 epochs）。表2总结了我们的培训分析。
在这里插入图片描述消融总结。我们在DataCompDR-12 M上进行了3万次迭代的培训。所有消融均在ViT-B/16：Base上进行。我们用蓝色突出显示主要选择，用灰色突出显示备选权衡。我们在最大值的0.5%以内的数字下划线。
强大的图像增强功能。与用于强增强视觉的单峰监督和自监督方法[13，60]相反，CLIP训练方法[47]通常使用轻图像增强来避免图像-文本错位。然而，一些工作[2，14，46]证明了在蒸馏装置中强增强的功效。在选项卡中2我们表明强图像增强提高了蒸馏性能（在IN-val上+4.8%，在Flickr 30 k上+4.4%）。我们在附录C中详细介绍了消融对图像增强的影响。
合成字幕。与图像增强类似，合成字幕（或字幕增强）可以进一步提高CLIP模型的性能，特别是在图像-文本检索上。对于常规CLIP训练（λ = 0），我们在表10中观察到。2，包括同时具有合成和真实的字幕的批次，IN-val性能提升+7.4%，Flickr 30 k性能提升+27.5%。在选项卡中3a，我们观察到仅具有蒸馏损失（λ = 1）的CLIP训练的类似趋势。在选项卡中3b中，我们分析了λ的影响，并观察到一种折衷，其中λ = 1.0对于IN-val是最佳的，而λ = 0.7对于Flickr 30 k是最佳的。利用合成字幕的先前工作主要集中在改进的检索[32，70]，而蒸馏工作集中在零镜头分类[56]。在我们的大规模实验中，我们使用λ = 0.75来平衡MobileCLIP-B的权衡，并使用λ = 1.0来平衡我们的小变体。
文工团的老师。我们发现，在我们的多模态强化训练中，使用强CLIP模型的集合作为教师，对于实现+2.4%的IN-val改善至关重要（表（2）.我们还观察到，最准确的模型并不是最好的老师。关于不同教师模式的综合分析，请参见附录D。
图像增强和合成字幕的数量。我们生成多个图像增强和合成字幕，并将它们与教师嵌入沿着有效地存储。我们研究了在标签中增加和合成字幕的数量的有效性。4a和4 b我们用多达30个图像增强和5个合成字幕训练模型，迭代45 k次（约30个时期）。我们观察到性能在5个增强和2个合成字幕处接近饱和，这表明在模型完全学习到所添加的知识之前，每个增强可以被多次重用。当需要时，较少的增强和合成字幕可以帮助减少生成时间和存储开销。为了获得最佳性能，我们分别使用10次和30次增强以及5个合成字幕来增强DataCompDR-12 M和DataCompDR-1B。
训练时间。强化训练的一个主要优点是与非强化训练的时间差最小。我们在Tab中提供挂钟时间。4d用于常规的CLIP培训以及在线提取和字幕生成器的培训。我们测量了在具有8× A100- 80 GB GPU的单个节点上对DataCompDR-12 M的一个时期进行训练的时间。在DataCompDR-12 M上，一个历元需要1562次迭代，全局批处理大小为8192。在没有任何数据集强化的情况下，训练要慢16倍，而在部分强化合成字幕的情况下，训练要慢3倍。
存储大小。我们报告了与原始DataComp数据集相比，我们的增强数据集的存储要求。我们报告了每个图像-文本对一个文件的存储大小。如果存在，我们将所有相应的增强存储在同一文件中。我们以Pickle格式存储文件，并使用Gzip压缩对每个文件进行压缩。图像-文本嵌入保存在BFloat 16中。我们在表中报告了DataCompDR-12 M的1280万个样本和DataCompDR-1B的1280万个样本的总存储大小。4c.我们在附录E中提供了关于额外尺寸缩减的分析，并验证了使用BFloat 16不会影响准确度。为了最小化存储开销，我们建议在DataCompDR-12 M上对30个时期使用5个增强/合成字幕，在DataCompDR-1B上对10个时期使用2个增强/合成字幕，这些都是基于我们在标签中的消融。4a和4 b
混合文本编码器。我们消除了TextRepMixer块的数量，这些块可以有效地替换自我注意层，而对零触发性能的影响可以忽略不计。在此基础上，我们选择了一个6层的纯卷积文本编码器，并在中间系统地引入了自注意层。从选项卡。5，我们发现即使引入单个自注意层，也显著地提高了零冲性能。最佳折衷方案是使用2个TextRepMixer块和4个自我注意层块。该变体MCt获得了与纯Transformer变体相似的性能，但体积小5%，速度快15.8%。

5.2.小规模制度

在选项卡中6中，我们比较了在具有12- 20 M样本的数据集上训练的方法，这是用于快速探索的相对小的范围（例如，体系结构搜索）。在DataCompDR-12 M上使用少于3.7亿个样本进行训练的MobileCLIP-B显著优于所有其他方法，训练时间最多为其他方法的4倍。此外，MobileCLIP-B显示，与之前的工作SLIP [43]（42.8→45.0%）相比，随着观察到的样本数量（65.3→71.7%）的增加，缩放比例更大。与使用多分辨率训练提高效率的CLIPA [34]相比，使用DataCompDR-12 M进行训练的效率更高：CLIPA在2.69B多分辨率可见样本（其计算等效于约0.5B 2242个可见样本）下获得63.2%，这比MobileCLIP-B在仅0.37B可见样本下获得的65.3%差。此外，与MobileCLIP-S2相比，TinyCLIP-39 M/16具有更高的延迟和更低的准确性，TinyCLIP-8 M/16的准确性显著低于MobileCLIP-S 0（41.1% vs 59.1%），但具有相近的延迟（2.6 ms vs 3.1 ms）。
在这里插入图片描述
小型CLIP培训。MobileCLIP-B表示法是指我们重新实现的ViT-B/16图像编码器和标准Base文本编码器。†指多分辨率。模型根据观察到的样本数量进行分组。

5.3.学习效率

通过知识蒸馏进行更长时间的训练可以持续提高分类模型的性能[2]。在图6a中，我们显示了我们的强化训练也受益于更长的训练，仅使用DataComp-1B的12 M子集，在120个epoch后实现了71.7%的ImageNet-val zeroshot准确度。相比之下，非强化训练最多达到55.7%的准确率。我们还在图6 b中展示了数据集大小的缩放，其中我们将DataComp-1B的子集从1.28 M部署到所有1.28 B样本。对于所有实验，我们训练了20 k次迭代，全局批量大小为65 k（相当于在1.28B子集上进行一次epoch训练）。DataCompDR上的训练在128万个样本的情况下达到了55.2%以上的准确率，而DataComp-1B上的训练仅达到了1.6%的准确率。在此设置中，我们使用DataCompDR观察到超过100倍的数据效率。此外，我们在Flickr 30 k上观察到1000倍的数据效率。
在这里插入图片描述

5.4.与最新技术水平的比较

在选项卡中7、与大规模训练方法进行了比较。在DataCompDR-1B上训练的MobileCLIP-S 0显著优于TinyCLIP [68]等最新研究成果，与在DataComp [18]上训练的ViT-B/32模型具有相似的性能，但体积小2.8倍，速度快3倍。MobileCLIP-S2在38个数据集上的平均性能提高了2.8%，与在DataComp上训练2.6倍长的ViT-B/32-256模型相比，检索性能显著更好[18]。MobileCLIP-S2比ViT-B/32-256型号小1.5倍，快1.4倍。MobileCLIP-B在38个数据集上的平均性能提高了2.9%，检索性能也更好，同时比SigLIP-B/16 [77]模型小26.3%，后者在WebLI数据集上的训练时间大约长3倍。
在这里插入图片描述

5.5.检索性能分析

我们在最近的属性，关系和顺序（ARO）基准上评估我们的模型[75]。我们将在DataCompDR-1B上训练的MobileCLIP-B与Tab中所有公开可用的ViT-B/16：Base模型进行比较。8.使用嘈杂的网络规模数据集仅为零拍摄分类或检索进行优化可能会降低对自然场景的组成理解。DataCompDR极大地提高了模型在ARO基准测试中的性能，同时在零次分类和检索任务中获得了良好的性能。与最近的SigLIP方法[77]相比，MobileCLIP-B在Visual Genome Relation和Attributes数据集上获得了19.5%和12.4%的更高准确率，并在Flickr 30 k-Order和COCO-Order数据集上分别获得了69.7%和50.3%的更高recall@1。
在这里插入图片描述 ARO基准测试。所有的模型使用ViT-B/16作为图像编码器和基本文本编码器。对于VG Rel.和VG Attr.数据集，报告了Macro Acc.，并在[75]之后报告了Flickr 30 kOrder和COCO-Order recall@1。

6.结论

在这项工作中，我们介绍了MobileCLIP对齐的图像-文本主干，专为设备上的CLIP推理（低延迟和大小）而设计。我们还引入了DataCompDR，这是对DataComp的强化，它使用了来自预训练图像字幕模型和强大CLIP模型的集合的知识。我们用强化数据集证明了10×-1000×的学习效率。与以前的作品相比，在DataCompDR上训练的MobileCLIP模型获得了最先进的延迟-准确性权衡。MobileCLIP模型在属性、关系和顺序（ARO）基准测试中也表现出更好的鲁棒性和更好的性能。