VLP、多模态图文任务(4)核心视觉任务

        计算机视觉已经在我们的社会中无处不在,应用于视觉搜索、图像理解、地图制作、医学和自动驾驶汽车等领域。这些应用的核心任务之一是视觉识别任务,如图像分类和目标检测。这些任务的主要目标是将语义上有意义的概念分配给视觉实例,例如图像或区域。传统的计算机视觉系统被训练来预测一组固定的预定义概念,例如ImageNet/JFT300M上的图像类标签,COCO上的物体类别等。尽管在这些任务上已经报告了接近人类水平的性能,但是这种靠近集合概念的限制形式限制了模型的普适性和可用性,因为需要额外的标注数据来指定在训练数据中看不见的语义概念。在本章中,我们描述了VLP中最新进展如何解决核心视觉识别问题。

1. 范式转变的基本原理

        最近的计算机视觉系统采用了自由形式的自然语言监督进行训练,从简单的对象类别名称到描述性描述。这种语言增强的视觉模型展现出很强的迁移能力。我们认为以下两个因素促成了这种范式转变。

(1)通过将问题从分类转化为检索,实现了开放式识别。

        传统的分类形式定义并学习了一组固定的嵌入向量,每个向量表示一个对象类别。模型无法预测和传输超出这些密集概念集合的概念。另一种选择是将图像分类视为图像到文本的检索任务,在此任务中,通过搜索匹配的概念来查找图像(或图像区域)。采用如神经网络等参数化模型对图像和语言(概念)进行编码,并执行密集检索以从相关概念中检索图像。

(2)语言监督形式提高了模型的普适性和可用性,使广泛的视觉概念得以表示。

        固定的视觉概念集合是对视觉概念过度简化的表示,因为在分类头部需要紧凑性。相比之下,检索形式中引入的文本编码器能够处理更大的概念池。自然语言在语义上比任何概念标签集合(例如对象类别)更丰富。语言的文本序列形式还允许将外部知识(例如来自WordNet和维基百科)以与图像字幕和概念标签相同的格式表示,进一步提升了概念的覆盖范围。

下面是一些模型的介绍:

核心计算机视觉问题开发的VLP模型

        

核心视觉任务中代表性VLP模型的术语表。对于数据规模,我们报告了图像-文本对的数量,包括图像标签和图像字幕。IC:图像分类。OD:目标检测。LocNar:局部化叙事。Golden-G是在MDETR中处理的混合黄金参考标注数据。ITC:图像-文本对比学习。WRA:词-区域对齐。TP:标记预测。SSL:自监督学习。

        我们列出了代表性的VLP模型术语表,其中描述了模型的多个维度。在图中,我们展示了这些VLP模型随时间的演变。这一系列的研究为计算机视觉模型装备了开放式视觉识别的能力,为构建具有强大任务级迁移能力的可广泛应用的计算机视觉系统打开了可能性,从而为野外计算机视觉(CVinW)铺平了道路。

2. 图像分类

我们使用图像描述匹配(Image Caption Matching)的方法进行图像分类。在这个方法中,我们定义了一个包含图像和对应语言描述的三元组数据集 S = {(xn, tn, yn)}Nn=1。其中,x ∈ X 表示图像,t ∈ T 表示语言描述(从简单的类别名称到自由形式的文本序列),y ∈ Y 是指示数据集中语言描述所属组或唯一标识的索引。

我们的目标是学习通用且丰富的视觉-语义表示,使得图像能够与其语言描述正确对齐,即实现图像分类。对于每个图像 x,我们使用参数化为 θ 的图像编码模型 fθ 将其表示为一个视觉特征向量 ˜v ∈ RP×1:˜v = fθ(x)。对于每个语言描述 t,我们使用参数化为 φ 的文本编码器 fφ 对其进行编码,得到一个特征向量 ˜u ∈ RP×1:˜u = fφ(t)。注意,˜v 和 ˜u 分别是整个图像和句子的向量表示。

在一个批次 B 中的第 i 个图像 xi 和第 j 个语言描述 tj,我们将它们的特征向量在一个超球面上进行归一化,得到 ui = fθ(xi) / ||fθ(xi)|| 和 vj = fφ(tj) / ||fφ(tj)||。然后,我们计算它们之间的相似度 sij = uTi vj。通过这种方式,我们可以对图像和语言描述之间的匹配程度进行评估,实现图像分类任务。

以上是使用图像描述匹配方法进行图像分类的步骤和过程。

图1:用于图像分类的图像描述匹配

2.1  UniCL

        是一种双向有监督对比学习目标,它基于图像和语言描述之间的匹配关系来定义:

        其中 ,τ是一个温度超参数,控制对难负样本的惩罚强度。在图4.2中,有两幅图像共享相同的语言/概念“狗”,根据UniCL公式,对比学习目标矩阵中的相应元素被标记为正面的。通过将UniCL扩展到800M个训练样本,可以得到微软的Florence模型,从而在当时取得了许多任务上的SoTA表现。

2.2 CLIP/ALIGN

        CLIP/ALIGN是基于假设的,即在一个批次中,图像和其配对的描述之间只存在一对一的映射关系,即P(i) = {i}和Q(j) = {j}。CLIP(Radford等人,2021)和ALIGN(Jia等人,2021)的训练目标是:

        对于图1的例子,CLIP或ALIGN只将对角线上的元素视为正面,而将所有非对角线上的元素视为负面。理想情况下,CLIP或ALIGN应当应用于在任一模态中均不具有重复的图像-文本对。

与传统分类问题的公式有关联

请注意,LUniCL与在监督图像分类问题中使用的标准交叉熵损失密切相关。具体而言,当满足以下三个条件时,图像到语言对比项将回复为交叉熵作为特例。(i) 文本编码器fφ被表示为一个简单的线性嵌入层W。(ii) 批次大小|B|远大于类别数K,以便在训练时使用随机采样时,所有类别的嵌入向量都参与对比学习。(iii) τ = 1,并且不进行归一化操作,所以˜u = u和˜v = v。在实践中,这些条件都很容易满足,可以简化为

        其中,ˆy是批次中第i个图像的真实标签。

其他针对图像分类的语言-图像预训练方法。

        从网络规模的图像-文本对中学习视觉骨干是一个新兴的研究课题。最近出现了越来越多的论文,旨在提高在实际场景中的零样本/少样本图像分类性能。

• 改进的对比预训练目标

FILIP (Yao等人,2022)引入了细粒度区域-词汇对应关系的引导学习方法。PyramidCLIP (Gao等人,2022b)构建一个具有不同语义级别的输入金字塔,并通过内部和跨级别对齐以层次结构的形式对齐两种模态。Prefix conditioning (Saito等人,2022)引入了使用带前缀的提示来组合图像标题和图像标签数据,根据数据类型选择合适的提示。CyCLIP (Goel等人,2022)表明,可以通过显式将两个不匹配的图像-文本对之间的相似性(跨模态一致性)以及图像-图像对和文本-文本对之间的相似性(内部一致性)对称化来学习一致的表示。

• 自监督+对比目标

DeCLIP (Li等人,2022j)全面研究了图像-文本对中多种单模态自监督信号。SLIP (Mu等人,2021)研究了图像-图像自监督学习和图像-文本对比学习的集成。遮蔽图像/语言建模也与图像-文本对比学习相结合,例如MultiMAE (Bachmann等人,2022)和M3AE (Geng等人,2022)。

• 冻结模型

LiT (Zhai等人,2022)引入了“对比调整”方法,表明锁定预训练的图像编码器并调整文本编码器对于零样本迁移效果最好。Flamingo (Alayrac等人,2022)利用每个单一模态的预训练模型,并继续预训练跨模态模块,以实现使用上下文学习的令人印象深刻的图像分类性能。

• 扩展规模

由于网络规模预训练在计算机视觉任务中表现出的良好结果,越来越多的研究探索VLP模型扩展规模的成功。BASIC (Pham等人,2021)被提出以三个维度(数据大小、模型大小和批次大小)扩展CLIP和ALIGN的对比学习框架,在ImageNet上实现了85.7%的零样本准确率。LIMoE (Mustafa等人,2022)是一种稀疏专家混合模型,能够进行语言-图像多模态学习。Pathways Language and Image model (PaLI) (Chen等人,2022e)发现了联合缩放视觉和语言组件的重要性。由于现有的Transformer语言模型比其视觉对应部分大得多,PaLI训练了迄今为止最大的ViT,以量化更大容量视觉模型的好处,基于大型多语言混合的预训练任务和一个新的包含超过100种语言的10B图像和文本的图像-文本训练集。

在文献中,评估预训练模型的开放集图像分类能力有两种不同的实验设置。

• 单一域内的类别级迁移

传统的零样本迁移评估方法已经研究了几十年,在给定的视觉领域中预先定义了一个手动分割,确保评估概念在训练中没有观察到。例如Animal with Attributes (AwA) 、Caltech-UCSD Birds-200 (CUB)、SUN、aPY (Farhadi等人,2009)和ZS-ImageNet 。

• 任务级迁移

为了展示CLIP的强大适用性和普适性,Radford等人 (2021) 直接应用预训练的检查点来识别社区中约30个公共图像分类数据集中的任何概念。尽管模型从未观察过这些下游数据集中的图像,但报道了令人印象深刻的结果。它迅速推广了计算机视觉基础模型的零样本任务迁移评估方法。提出了许多CLIP的变体 。但这些工作使用不同的下游数据集进行评估,使得它们的结果无法进行比较。最近的Image Classification in the Wild (ICinW)基准是对任务级评估的一次尝试,涵盖了20个公共数据集 (Li等人,2022b)。


顶部:CLIP预先训练了一个图像编码器和一个文本编码器,以预测数据集/批次中哪些图像与哪些文本配对。这种行为使我们能够将CLIP转化为一个零样本分类器。我们将所有的类别转换为标题,例如“一张狗的照片”,并预测与给定图像最佳匹配的标题类别。
底部:零样本CLIP分类器在四个数据集的示例上的预测结果。这个图像是在Radford等人 (2021)中创建的。
 

        在IC中的语言-图像模型的应用案例。在上图中,我们说明了像CLIP这样的图像-文本对比训练模型如何用于零样本图像分类。给定一个带有一组概念/类别名称的新IC数据集/任务,通过使用各种文本模板来将每个概念转换为标题。标题被用作文本编码器的提示,以提取概念表示。查询图像被输入图像编码器,以提取视觉表示,该表示用于计算与所有概念相关的相似性。具有最高相似性的结果给出了预测的概念。在图的底部,展示了四种情况,其中一种来自ImageNet,其他三种来自ICinW,代表了真实世界的IC场景。

3. 目标检测

        典型的目标检测任务包含两个子任务。第一,定位任务旨在确定图像中目标的存在,并用边界框指示位置。第二,识别任务确定感兴趣区域(或边界框)中存在的目标类别。识别任务类似于图像分类任务(第4.2节),不同之处在于图像分类在IC中是在整个图像上进行,而在OD中是在各个区域/框中进行。因此,通过遵循将分类转化为检索的方式(如第4.2节所述),可以提高OD模型在开放集识别方面的迁移能力。具体而言,每个区域/框特征都会经过两个预测头,即框分类器和框回归器,分别使用分类损失L_cls和定位损失L_loc进行训练:

3.1 单阶段模型

        在传统的目标检测表述中,框分类器使用简单的线性层实现,并且分类损失Lcls可以表示为: 

这里,2 O ∈ RM×d 是输入图像的对象/区域/框特征,W ∈ RK×d 是框分类器的权重矩阵,Scls ∈ RM×K 是输出的分类logits,T ∈ {0, 1}M×K 是目标,M(S; T) 是损失函数,如单阶段目标检测模型中的focal loss。

        GLIP(Li等人,2022h)将OD重新定义为短语定位任务,而不是将每个区域/框分类为K个类别。它通过将图像中的每个区域与文本提示t中的K个短语进行定位/对齐来实现。计算图像x中的区域与提示t中的单词之间的对齐分数Sground:

这里,P ∈ RL×d 是来自语言编码器的上下文化的单词/标记特征,L是语言提示t的长度。P在(4.9)中扮演类似于权重矩阵W的角色。由图像编码器fθ和语言编码器fφ组成的定位模型是端到端训练的,通过最小化(4.8)和(4.9)中定义的损失,简单地将(4.9)中的分类logits Scls 替换为(4.10)中的区域-单词对齐分数Sground。在图4.4中,我们展示了为4个区域-单词对计算的Sground的示例。值得注意的是,用于计算Sground的所有边界框提案都来自一张图像。匹配的对获得比不匹配的对更高的分数。

3.2  双阶段模型

通过将CLIP/ALIGN模型的知识提炼为一个两阶段的检测器,ViLD (Gu等人,2022d) 和RegionCLIP (Zhong等人,2022) 提出了零样本目标检测的方法。 在两阶段检测器中,使用一个独立的区域建议网络(RPN)来区分前景和背景,其损失函数为Lrpn。由于Lrpn不使用目标类别的语义信息,可以将其合并到式(4.8)中的定位损失函数Lloc中。在RegionCLIP中,RPN用于提议批处理中所有图像的图像区域,总共产生N个图像区域。图像区域的集合用{ri}N i=1表示。给定提议的区域,通过视觉编码器使用特征池化方法(如RoIAlign)生成区域ri的视觉表示vi。RegionCLIP还构建了一个用于图像区域的候选概念池,这些概念通常与完整图像的概念不同。这些概念以自然语言的形式存在,并通过预训练的文本编码器L编码为语义表示{uk}k=1,...,K,其中K表示概念池的大小。 通过利用预训练的CLIP,选择具有最高匹配得分的对象概念u作为每个区域r的伪标签,从而构建{u, v}的正样本对。使用类似的对比学习框架和额外的蒸馏损失函数来训练目标检测模型。

其他用于目标检测的语言-图像预训练方法。

从图像-文本对中学习通用开放集目标检测器成为一个越来越受欢迎的课题。与GLIP类似,MDETR (Kamath等人,2021) 将检测问题重新表述为短语定位问题,并对整个图像使用单一文本查询。FIBER (Dou等人,2022a) 在GLIP的基础上进行改进,包括使用一个粗到细的预训练流程,以及在骨干网络而不是在目标检测头部进行融合。OVR-CNN (Zareian等人,2021) 对图像-文本模型进行微调,以在有限的词汇表上进行检测,并依靠图像-文本预训练来推广到开放词汇设置。 Detic (Zhou等人,2022e) 通过仅在仅具有图像级注释的示例上训练分类头部,提高了弱监督下的长尾检测性能。其他同时进行的工作包括OV-DETR (Zang等人,2022),X-DETR (Cai等人,2022),FindIT (Kuo等人,2022),PromptDet (Feng等人,2022)和OWL-ViT (Minderer等人,2022)。

在文献中,有两种不同的实验设置用于评估预训练目标检测模型的开放集目标检测能力。

单域中的类别级别迁移

目标检测中一种常见的零样本迁移评估遵循Zareian等人(2021)中的设置,其中在给定视觉域中预定义了一个人工划分,确保训练和评估之间没有概念重叠。例如,在LVIS(Gupta等人,2019)上,将866个常见类别作为基础类别进行训练,将337个稀有类别作为新颖类别进行评估。在COCO上,有一个由48个基础类别和17个新颖类别组成的划分,去除了在WordNet层次结构中没有同义词集的15个类别。

• 任务级别迁移

这是一种日益流行的设置,其中预训练目标检测模型在多个数据集上以零样本的方式进行评估。例如,受CLIP的启发,LVIS训练的模型在ViLD (Gu等人,2022d) 中被评估在3个数据集上,包括PASCAL VOC、COCO和Objects365。最近的ODinW基准将任务级别评估推广到了更全面的范围,其中13个数据集起源于Li等人(2022h),而35个数据集则在Li等人(2022b)中正式定义。

语言-图像模型在目标检测中的应用案例。

顶部:GLIP对图像编码器、文本编码器和融合模块进行预训练,以预测哪些图像框区域与文本提示的哪些单词/短语配对。这种行为使我们能够将GLIP转化为零样本目标检测器。我们通过连接将数据集的所有类别转换为标题,并预测GLIP估计最佳与给定框配对的标题的单词/短语。底部:在ODinW(Li等人,2022b)中展示了零样本GLIP目标检测器在六个数据集中的示例预测。该图由Li等人(2022h)创建。

        

        在图4.5中,我们展示了类似GLIP的区域-短语匹配模型如何用于零样本目标检测。给定一个新的目标检测数据集/任务及其一组概念/类别名称,所有概念通过串联转换为标题,并添加一些简单的用户自定义文本提示。标题作为文本编码器的提示,用于提取概念表示。查询图像被输入图像编码器以提取全面的视觉表示,然后使用深度融合模块计算与所有概念的相似度。超过给定阈值的相似度产生预测结果:感兴趣区域框和匹配的概念。在图4.5底部,展示了六个应用案例,它们都来自ODinW基准,代表了真实世界的目标检测场景。

4. 图像分割

图像分割涉及将图像像素分组并为图像的每个像素分配一个类别标签。我们以语言驱动的语义分割(LSeg)(Li等人,2022a)为例,说明图像分割过程,其中文本类别和图像像素被嵌入到一个共同的空间中,每个像素被分配到一个语义类别。对于具有K个类别标签的任何语义分割任务,文本编码器将它们嵌入到连续的向量空间Rd中,生成一个包含所有类别的嵌入矩阵P = [p1, · · · , pK] ∈ RK×d作为输出。对于图像x,图像编码器将其编码为密集的网格表示O ∈ RH×W×d,其中H和W指定特征图的空间尺寸。单词-网格相似性张量计算为点积Sseg = OP ∈ R(H×W)×K。

图6:像素-短语匹配用于分割

        在图6中,我们展示了在4个单词-网格对上计算的简化示例Sseg。请注意,用于计算Sseg的所有网格特征都是从一个图像中提取的。配对匹配的得分高于不匹配的配对。 对于给定的位置对,我们使用带有温度缩放的每个网格Softmax和交叉熵损失来最小化,这在语义分割中是标准的。在LSeg中,使用密集预测Transformer(Ranftl等人,2021)对特征进行解码,并且最终的空间正则化块对预测进行空间正则化和清理。 由于图像-文本配对数据中含有丰富的语义信息,还有许多其他使用语言-图像模型进行分割的方法,如下所述:

• 基于CLIP的分割

许多分割模型直接将预训练的CLIP模型改编为像素级视觉识别任务,包括PhraseCut(Wu等人,2020)、OpenSeg(Ghiasi等人,2022)、CLIPSeg(L¨uddecke和Ecker,2022)、ZS-Seg(Xu等人,2021d)、MaskCLIP(Zhou等人,2022a)、DenseCLIP(Rao等人,2021)和MaskCLIP(Ding等人,2022b)。OpenSeg(Ghiasi等人,2022)还使用类别不可知的遮罩注释进行模型学习,以生成遮罩提议。

• 从头开始训练

GroupViT(Xu等人,2022)是一种新的分层分组Transformer架构,利用Transformer的全局自注意机制将输入图像分割成逐渐变大的任意形状的组。它使用约1200万个图像-文本对上的多标签图像-文本对比损失进行预训练。由于GroupViT会自动将图像分组为语义相似的片段,因此其输出可以轻松转化为语义分割而无需微调。

5. 野外计算机视觉的趋势

        在上述的三个小节中,我们描述了如何将一个封闭集识别模型扩展为执行三个开放集识别任务:图像分类、目标检测和分割。解决方案是利用参数化函数,如神经语言模型,来表示类别,而不是传统的非参数化表示,如独热向量嵌入。尽管它赋予了开放集识别的功能,但该模型仍然缺乏在野外大范围下游任务中表现良好的能力,在这些任务中,输入图像的视觉外观和输出类别的语义常常在不同应用之间有明显的差异。

图7: 关于“野外计算机视觉(CVinW)”设置的说明,与其他设置进行比较。这个二维空间的构建有两个维度:输入图像和输出概念。根据模型开发阶段和模型评估阶段之间的要求,将2D图表分为四个象限。在标准设置提供的示例中,呈现了具有“人、羊、狗”概念的自然图像。图片来自Li等人(2022b)。

        

        在图7中,我们使用Li等人(2022b)的定义来比较计算机视觉社区研究的四个设置:传统的封闭集识别设置(左下象限)、开放集识别设置(左上象限)、领域自适应或分布外设置(右下象限)和CVinW设置(右上象限)。显然,CVinW考虑了视觉领域和概念领域的变化。实际上,任何视觉识别任务都可以使用一组定制的概念和给定的视觉领域来自然地定义。从这个角度来看,CVinW考虑了任务级别的迁移,这超出了传统开放集识别设置中经常出现的概念/类别级别的迁移。在图4.8中,我们使用上面相同的图像来说明这些设置之间的差异。


不同的视觉识别设置的示意图如下所示

        计算机视觉在野外开发基础模型的目标有两个: • 能够迁移到广泛的新下游任务。这意味着基础模型的应用场景是广泛的。像ImageNet和COCO这样的成熟数据集分别代表了图像分类和目标检测的封闭集任务。在现实世界的设置中,视觉领域和概念集合都可能发生显著变化,超越了ImageNet和COCO。评估一个基础模型的有效性更好地通过它的适用性而不是在特定任务上的表现来衡量。 • 任务转移的适应代价较低。预训练基础模型的一个主要优势是它们可以轻松地(或者以低成本的方式)迁移到下游任务。这意味着模型适应效率是衡量基础模型可用性的重要因素。良好的基础模型应该以最少的适应工作部署。为了衡量适应成本,Li等人(2022b)在两个正交维度上定义了适应成本:样本效率(通过训练示例的数量来衡量)和参数效率(通过可训练参数的数量来衡量)。像ImageNet和COCO这样的成熟数据集并不为基础模型提供最佳的评估设置。要在这些数据集上实现SoTA性能,通常需要对完整模型进行全面微调,这导致适应成本很高。作为一个指导方针,一个具有固定权重的基础模型应该能够在许多下游任务中良好地进行零次转移。

        实现上述目标的方法可以单独针对一系列计算机视觉任务或共同实现。当单独实现时,设置是为每个问题构建一个单独的基础模型。本章描述的大多数VLP模型属于此类。当共同实现时,设置是在所有任务之间构建一个统一的基础模型。计算机视觉任务在不同粒度级别(图像、区域、像素)上需要图像处理,这使得跨任务统一变得具有挑战性。构建一个可以利用不同粒度级别的视觉-语言数据的AI系统,以寻求数据规模和语义丰富度之间的最佳权衡,仍然是一个有吸引力的研究课题。

6. 总结和高级主题

随着关于核心计算机视觉问题的VLP文献快速增长,越来越多的论文和有趣的研究课题涌现出来,如图4.9所述。下面,我们简要讨论一些重要的课题,例如:知识增强视觉模型、多语言语言-图像模型、高效和鲁棒的模型适应性、基准测试等。

• 知识增强视觉模型。文本编码器可以说是最近开发的语言增强计算机视觉系统中最独特的组成部分。因此,对于核心视觉识别任务来说,提高文本编码的能力非常重要。 K-LITE (Shen等人,2022a) 丰富了自然语言中的实体,使用WordNet / Wikipedia知识库,提供了一种可扩展的方式来在图像分类和目标检测中以零样本和少样本的方式迁移学习到大范围的新任务中。相比于CLIP / UniCL / GLIP,K-LITE在预训练中更加高效。 Tian等人(2021)探索利用外部知识来改进单个领域内的长尾视觉识别,这属于类别级别转移的范畴。

• 多语言语言-图像对比。使用英文字幕进行图像-文本对比学习的成功启发了使用其他语言来源。 MURAL(Jain等人,2021)从头开始对多语言图像-文本对进行预训练,其中包括不同语言之间的图像到文本对比损失和文本到文本对比损失。通过从原始的英语CLIP中提炼,Carlsson等人(2022)在保持其图像编码器不变的情况下训练出了一种特定于语言的编码器。其他多语言/双语/单语变体的对比语言-图像模型包括韩语(Ko和Gu,2022)、意大利语(Bianchi等人,2021)、俄语(Shonenkov等人,2022)和汉语(Gu等人,2022a)。

• 高效适应方法。随着模型大小的增长,如何将预训练模型有效地适应于各种下游任务成为问题。有关样本效率(例如,零样本和少样本)和参数效率(例如,提示调整、线性探测和完整模型微调)的研究。对于VLP模型来说,它提供了利用文本编码器进行模型适应的独特机会,其中包括条件提示学习(Zhou等人,2022b)、颜色提示调整(CPT)(Yao等人,2021)、VL-Adapter(Sung等人,2022b)和CLIP适配器(Gao等人,2021)。关于参数效率的全面研究可以在He等人(2022)中找到。

• 鲁棒性。Wortsman等人(2022)研究了零样本模型的鲁棒微调。Fang等人(2022a)报告称,在CLIP中,数据决定分布鲁棒性。微调CLIP会扭曲预训练特征,并在超出分布范围的情况下表现不佳(Kumar等人,2022)。原始的CLIP文章报告称,当样本数较小时,少样本比零样本的效果要差。相反,Li等人(2022b)表明,当预训练文本编码器被正确使用于模型适应时,少样本CLIP总是优于零样本CLIP。

• 基准测试。将预训练的语言增强视觉模型有效地转移并公平地评估到下游数据集和任务上仍然具有挑战性。 ELEVATER(Li等人,2022b)为语言增强视觉模型提供了一个评估平台。 ELEVATER包括一套数据集和易于使用的工具包,用于评估预训练视觉模型的任务级别转移能力,与传统的用于评估类别级零样本转移的基准不同。它被用于上述ICinW和ODinW挑战赛中,为野外计算机视觉提供了一个共同的游戏场所。

• 开放式视觉关系识别。开放式识别的思想已经扩展到更多的视觉识别任务中,例如关系检测。关系语言-图像预训练(RLIP)(Yuan等人,2022)提高了零样本、少样本和微调人-物交互(HOI)检测性能,并增强了对于从嘈杂标注中学习的鲁棒性。

• 开放式视频分类。多模态开放词汇视频分类(MOV)(Qian等人,2022)提出使用预训练的文本-图像模型的视觉编码器,通过最小化修改来编码视频、光流和音频频谱图,并设计跨模态融合机制来聚合互补的多模态信息。X-CLIP(Ni等人,2022)将预训练的文本-图像模型调整为视频识别。它使用跨帧注意机制明确地在帧之间交换信息,并使用视频特定的提示方案利用视频内容信息生成有区分性的文本提示。 对于对“野外计算机视觉”(即VLP用于核心视觉任务)感兴趣的读者,可以参考GitHub - Computer-Vision-in-the-Wild/CVinW_Readings: A collection of papers on the topic of ``Computer Vision in the Wild (CVinW)'' 上最新的CVinW阅读列表。

参考:

  Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值