IJCV 2024 | CLIP 引导的少样本动作识别原型调制方法

CLIP-guided Prototype Modulating for Few-shot Action Recognition

CLIP 引导的少样本动作识别原型调制方法

Xiang Wang;Shiwei Zhang;Jun Cen;Changxin Gao; Yingya Zhang;Deli Zhao; Nong Sang
代码:https://github.com/alibaba-mmai-research/CLIP-FSAR.


摘要

最近,像CLIP这样的大规模对比语言-图像预训练在学习各种下游任务上取得了显著的成功,但在具有挑战性的少样本动作识别(FSAR)任务上仍未被充分探索。在这项工作中,我们旨在转移CLIP的强大多模态知识,以缓解数据稀缺导致的不准确原型估计问题,这是低样本情况下的一个关键问题。为此,我们提出了一个名为CLIP-FSAR的CLIP引导的原型调制框架,它由两个关键组件组成:视频-文本对比目标和原型调制。具体来说,前者通过对比视频和相应的类别文本描述来弥合CLIP和少样本视频任务之间的任务差异。后者利用CLIP中可转移的文本概念,通过时间Transformer自适应地细化视觉原型。通过这种方式,CLIP-FSAR可以充分利用CLIP中丰富的语义先验来获得可靠的原型,并实现准确的少样本分类。我们在五个常用的基准测试上进行了广泛的实验,证明了我们提出的方法的有效性,CLIP-FSAR在各种设置下显著优于现有的最先进方法。源代码和模型在 https://github.com/alibaba-mmai-research/CLIP-FSAR 上公开可用。

关键词

少样本动作识别,多模态学习,多模态基础模型,大型模型应用

1 引言

动作识别是视频理解领域的一个基础话题,近年来取得了显著进展。尽管如此,现代模型需要大量的数据注释,这可能是耗时且费力的。少样本动作识别是一个有希望的方向,旨在通过少量标记视频识别未见类别,并受到了相当的关注。主流的少样本动作识别方法遵循基于度量的元学习范式来优化模型,首先将输入视频映射到一个公共特征空间,然后通过预定义的度量规则计算查询与支持原型之间的对齐距离以进行分类。为了获得一个有区分性的特征空间并促进学习,现有方法通常利用单模态监督预训练,例如ImageNet初始化。

尽管取得了显著进展,但单模态初始化由于标记数据相对有限和缺乏多模态对应信息,仍然无法实现令人满意的性能。幸运的是,对比语言-图像预训练是一种强大的新兴范式,通过应用从互联网上可获得的大规模图像-文本对的对比学习来学习高质量的可转移表示。典型的工作如CLIP成功地展示了惊人的可转移性,并在各种下游任务上取得了显著进展。受这些成功实践的启发,我们尝试将CLIP的强大能力转移到少样本动作识别任务上。

一个直接的想法是用CLIP的预训练视觉编码器替换ImageNet初始化,以利用其强大的表示能力。然而,图1中的实验结果表明,简单的替换初始化并在下游数据集上微调确实可以提高性能,但仍然有限。我们将其归因于没有充分利用CLIP模型的多模态属性来在少样本场景中获得可靠的支持原型。

受上述观察的启发,我们专注于充分利用CLIP模型的强大多模态知识进行少样本动作识别,因此提出了一个新颖的CLIP引导的原型调制框架,称为CLIP-FSAR。具体来说,为了使CLIP适应少样本视频任务,我们优化了一个视频-文本对比目标,以拉近视频特征和相应的类别文本表示。此外,为了缓解少样本场景中视觉信息不足的困境,我们提出利用CLIP中的文本语义先验来调制视觉原型。这是通过实现一个时间Transformer来自适应地融合支持集中的文本和视觉特征来实现的。基于这个方案,我们的CLIP-FSAR能够为少样本度量目标生成全面可靠的原型,从而产生稳健的分类结果。我们在五个标准基准上进行了广泛的实验,结果表明我们的CLIP-FSAR显著提高了基线方法。

总结来说,我们的主要贡献如下:

  1. 我们提出了一个新颖的CLIP-FSAR用于少样本动作识别,充分利用了CLIP模型的多模态知识。据我们所知,这是第一次尝试将大规模对比语言-图像预训练应用于少样本动作识别领域。
  2. 我们为CLIP适应性和原型调制设计了视频-文本对比目标,以生成可靠的原型。
  3. 在五个具有挑战性的基准测试上的广泛实验证明了我们方法的有效性,CLIP-FSAR实现了最先进的性能。

2 相关工作

这项工作与少样本图像分类、视觉-语言对比学习和少样本动作识别密切相关。我们在下面简要概述它们。

少样本图像分类

少样本学习的目标是用少量样本识别新类别。少样本研究大致可分为三组:数据增强、模型优化和基于度量的方法。第一类方法尝试使用数据生成策略来提高少样本模型的泛化能力。第二类希望为分类模型提供一个好的初始化,以便只需要少量的梯度更新步骤就能达到最优点。典型的方法包括MAML和其他变体。最近,也尝试在测试时微调部分可学习权重,以转移CLIP的鲁棒先验用于少样本分类。基于度量的方法通过学习映射空间和设置支持-查询匹配规则对查询样本进行分类,包括余弦相似度、欧几里得距离和可学习的度量。还有一些方法引入了额外的属性信息来协助少样本分类。其中,我们的方法属于基于度量的线路,它在没有测试时微调的情况下对查询样本进行分类,并尝试利用CLIP的可转移多模态知识来提升具有挑战性的少样本动作识别任务。

视觉-语言对比学习

探索视觉-语言预训练是利用不同属性数据关联的一个非常热门和有前途的方向。最近,对比语言-图像预训练由于其简单性和有效性而受到越来越多的关注。代表性的工作如CLIP通过两个独立的编码器将图像和自然语言描述投影到一个共同的特征空间进行对比学习,并通过对数亿图像-文本对的预训练实现了显著的“零样本”可转移性。随后,这些预训练模型已被扩展到各种下游任务,并显示出卓越的性能,包括图像分类、目标检测、语义分割和视频理解。受这些成功的启发,我们在这个工作中提出了第一个简单但高效的框架,利用CLIP丰富的语义知识进行少样本动作识别。一些最近或并行的工作将CLIP应用于封闭集动作识别任务,这需要使用分类器对训练集的类别进行分类。相比之下,提出的CLIP-FSAR遵循基于原型的元学习少样本范式,旨在利用文本特征来增强支持原型的表示。

少样本动作识别

大多数现有的少样本识别方法遵循基于度量的方式优化模型,并设计鲁棒的对齐度量来计算查询和支持样本之间的距离以进行分类。一些方法采用全局匹配的思想来进行少样本匹配,这在测量过程中忽略了长期时间对齐信息,导致相对较差的性能。为了利用时间线索,以下方法专注于查询和支持视频之间的局部帧级(或段级)对齐。其中,OTAM提出了动态时间弯曲技术的变体来显式利用支持-查询视频对中的时间顺序信息。ITANet设计了混合空间和通道注意力机制来学习代表性特征。TRX耗尽了不同数量帧的有序元组来比较支持和查询视频。HyRSM引入了自注意力来聚合视频之间的时间关系,并设计了双向均值豪斯多夫度量来放松匹配过程中的时间约束。甚至在取得巨大成功的同时,这些方法主要使用单模态预训练的骨干网络,而不涉及多模态特征,这限制了进一步的性能提升。在我们的工作中,我们引入了强大的CLIP模型,并尝试利用其多模态语义知识来处理少样本动作识别任务。注意,提出的CLIP-FSAR与原始的线性探测CLIP有两个本质区别:(1)原始的线性探测CLIP进行动作识别的线性探测评估,需要在测试类别上进行微调,这与我们的基于度量的少样本设置完全不同,其中训练和测试类别是不相交的,不允许在测试类别上进行微调;2)主要贡献是设计了一种有效的方法,可以利用CLIP的多模态知识生成可靠的原型,而原始的线性探测CLIP只是在线性微调视觉后端,而不涉及多模态线索。此外,在本文中,我们的关键见解是,简单地将CLIP扩展到少样本动作识别任务显然是不够的(如图1所示),因此我们精心设计了CLIP-FSAR,以更好地利用CLIP的强大多模态知识,并希望为社区提供一个利用大型基础模型并在下游任务上进行微调的新且可行的解决方案。

3 方法论

我们首先简要回顾CLIP的背景知识,然后详细描述我们的框架如何将CLIP应用于少样本动作识别任务。

3.1 CLIP的基础知识

与使用人工注释标签进行监督训练的传统范式不同,对比语言-图像预训练(CLIP)使用自然语言描述来监督表示学习,这提高了学习模型的可扩展性和可转移性。更具体地说,CLIP是一个双编码器结构,由视觉编码器和文本编码器组成。视觉编码器旨在将输入图像映射到一个紧凑的嵌入空间,可以使用ResNet架构或ViT架构实现。文本编码器旨在基于Transformer从自然语言描述中提取高语义特征。随后,如果它们是匹配对,则拉近获得的图像特征和文本特征,如果不是,则推开。总之,CLIP的学习目标是在共同的特征空间中执行多模态对比学习。为了进一步提高表示能力,CLIP在4亿个网络爬取的图像-文本对上进行了预训练。当转移到下游任务时,为了与预训练期间的文本描述对齐,输入文本通常使用提示模板“a photo of [CLS]”,其中[CLS]表示实际的类别名称。

3.2 CLIP-FSAR

概述。少样本动作识别的目标是用少量视频识别新的行动类别。在典型的少样本设置中,有两个类别不相交的数据集,一个基础数据集 D t r a i n D_{train} Dtrain用于训练,一个新颖数据集 D t e s t D_{test} Dtest用于测试。为了模拟测试环境,在训练过程中通常从 D t r a i n D_{train} Dtrain中抽取大量的少样本任务(或称为情节)来优化模型。对于一个标准的 N N N K K K样本任务,有一个支持集 S = { s 1 , s 2 , . . . , s N × K } S = \{ s_1, s_2, ..., s_{N \times K} \} S={s1,s2,...,sN×K},由 N N N个类别和每个类别的 K K K个视频组成。任务的目标是基于支持样本对查询视频 q q q进行分类。为了方便公式化,我们考虑 N N N路1样本(即 K = 1 K = 1 K=1)任务来展示我们的框架。按照之前的作品,我们在输入视频上实施了稀疏帧采样策略以减少计算负担。我们首先采用CLIP的视觉编码器 V V V生成输入视频帧的特征,并使用文本编码器 T T T提取相应类别自然语言描述的文本嵌入。然后我们对这些获得的帧特征和文本特征应用视频-文本对比目标,以适应CLIP到少样本视频任务。此外,我们提出了一个原型调制,以细化少样本度量目标的视觉原型。图2展示了我们CLIP-FSAR的整个框架。

视频-文本对比目标。给定一个支持集 S = { s 1 , s 2 , . . . , s N } S = \{ s_1, s_2, ..., s_N \} S={s1,s2,...,sN}和一个查询视频 q = { q 1 , q 2 , . . . , q t } q = \{ q_1, q_2, ..., q_t \} q={q1,q2,...,qt},其中 s i = { s 1 i , s 2 i , . . . , s t i } s_i = \{ s_{1i}, s_{2i}, ..., s_{ti} \} si={s1i,s2i,...,sti}是一个由稀疏采样的 t t t帧组成的支持视频。视觉编码器 V V V被用来编码视频特征:
f s i = V ( s i ) , f q = V ( q ) f_{si} = V(s_i), \quad f_q = V(q) fsi=V(si),fq=V(q)
其中 f s ∈ R t × C f_s \in \mathbb{R}^{t \times C} fsRt×C f q ∈ R t × C f_q \in \mathbb{R}^{t \times C} fqRt×C C C C是通道数。然后我们使用文本编码器 T T T提取基础类别的文本特征,提示模板为“a photo of [CLS]”,并将获得的文本特征表示为 { w i } i = 1 B \{ w_i \}^B_{i=1} {wi}i=1B,其中 B B B是基础集 D t r a i n D_{train} Dtrain的总类别数, w i ∈ R C w_i \in \mathbb{R}^C wiRC是一个特征向量。按照之前的做法,为了保留文本编码器中原始预训练的可转移知识并减少优化负担,我们在训练期间固定 T T T不更新。为了弥合CLIP和少样本视频任务之间的任务差异,我们模拟原始CLIP训练目标,以最大化视频特征和文本特征的相似性,如果它们是匹配对,则最小化。为了实现这个目标,我们首先计算视频-文本匹配概率如下:
p ( y = i ∣ v ) video-text = exp ⁡ ( sim ( GAP ( f v ) , w i ) / τ ) ∑ j = 1 B exp ⁡ ( sim ( GAP ( f v ) , w j ) / τ ) p_{(y=i|v)}^{\text{video-text}} = \frac{\exp(\text{sim}(\text{GAP}(f_v), w_i)/\tau)}{\sum_{j=1}^{B} \exp(\text{sim}(\text{GAP}(f_v), w_j)/\tau)} p(y=iv)video-text=j=1Bexp(sim(GAP(fv),wj)/τ)exp(sim(GAP(fv),wi)/τ)
其中 v ∈ { s 1 , s 2 , . . . , s N , q } v \in \{ s_1, s_2, ..., s_N, q \} v{s1,s2,...,sN,q} sim \text{sim} sim是余弦相似度函数,GAP是全局平均池化的简称, τ \tau τ表示一个可学习的温控因子。然后我们施加一个交叉熵损失 L video-text L_{\text{video-text}} Lvideo-text在预测和实际类别标签之间,以优化目标。

原型调制。现有的少样本动作识别方法,如OTAM,通常通过比较查询视频 q q q与支持视觉原型的时间对齐距离来进行分类。在少样本动作识别任务中,视频原型是一系列帧原型,有关更多细节,请参阅OTAM。查询视频 q q q和支持视频 s i s_i si之间的距离可以表示为:
d q , s i = M ( f q , f s i ) d_{q,s_i} = M(f_q, f_{si}) dq,si=M(fq,fsi)
其中 M M M代表时间对齐度量。在OTAM中, M M M是动态时间弯曲的变体,用于将支持-查询距离测量为帧对齐成本。少样本性能严重依赖于原型估计的准确性。一方面,在低样本场景中,由于数据稀缺,视觉信息往往不足,导致原型不准确。另一方面,视觉和文本模态之间存在互补性,CLIP的文本描述表示涉及丰富的语义先验。基于这些,为了提高支持原型的可靠性,我们提出利用信息丰富的支持文本特征来细化原型。具体来说,在支持视觉特征 f s i f_{si} fsi的基础上,我们将文本特征堆叠到相应的视频 s i s_i si沿时间维度,即 R t × C ∪ R C → R ( t + 1 ) × C \mathbb{R}^{t \times C} \cup \mathbb{R}^C \rightarrow \mathbb{R}^{(t+1) \times C} Rt×CRCR(t+1)×C,并使用时间Transformer自适应地融合特征。我们将生成的增强视觉特征表示为 f ~ s i \tilde{f}_{si} f~si(不包括输出文本特征)。由于我们在测试期间不知道查询视频的真实类别信息,我们只将视觉查询特征输入到时间Transformer中,以便输出的查询特征 f ~ q \tilde{f}_q f~q和支持特征可以在一个共同的特征空间中匹配。随后,我们采用时间对齐度量来计算查询-支持距离:
d q , s i ′ = M ( f ~ q , f ~ s i ) d'_{q,s_i} = M(\tilde{f}_q, \tilde{f}_{si}) dq,si=M(f~q,f~si)
其中在我们的CLIP-FSAR中,默认情况下 M M M是OTAM度量。请注意,提出的CLIP-FSAR是一个即插即用框架,在后续的实验部分,我们将CLIP-FSAR作为即插即用组件插入到其他现有度量或方法中(例如Bi-MHM、ITANet和TRX),并实证展示了其可插拔性。根据距离,查询视频 q q q对支持类别的概率分布可以表示为:
p ( y = i ∣ q ) few-shot = exp ⁡ ( − d q , s ′ ) ∑ j = 1 N exp ⁡ ( − d q , s j ′ ) p^{\text{few-shot}}_{(y=i|q)} = \frac{\exp(-d'_{q,s})}{\sum_{j=1}^{N} \exp(-d'_{q,s_j})} p(y=iq)few-shot=j=1Nexp(dq,sj)exp(dq,s)
按照之前的作品,我们可以使用交叉熵损失 L few-shot L_{\text{few-shot}} Lfew-shot来优化模型参数。我们CLIP-FSAR的最终训练目标是:
L = L video-text + α L few-shot L = L_{\text{video-text}} + \alpha L_{\text{few-shot}} L=Lvideo-text+αLfew-shot
其中 α \alpha α是一个平衡因子。对于少样本评估,我们可以通过方程5获得属于支持类别的匹配概率,就像之前的作品一样。此外,由于我们提出的框架的两个目标设计,我们也可以结合视频-文本匹配结果(方程2)和少样本分类结果(方程5),以获得合并预测:
p ∗ ( y = i ∣ q ) = ( p ( y = i ∣ q ) video-text ) β ⋅ ( p ( y = i ∣ q ) few-shot ) 1 − β p^{*}(y=i|q) = (p^{\text{video-text}}_{(y=i|q)})^{\beta} \cdot (p^{\text{few-shot}}_{(y=i|q)})^{1-\beta} p(y=iq)=(p(y=iq)video-text)β(p(y=iq)few-shot)1β
其中 β ∈ [ 0 , 1 ] \beta \in [0, 1] β[0,1]是一个可调整的超参数,我们将上述集成方式表示为CLIP-FSAR†。请注意,上述零样本和少样本结果的组合只是可选方法,本文主要关注少样本性能。

4 实验

在这一部分,我们在五个少样本动作识别基准上进行了广泛的实验,并将CLIP-FSAR与当前的最先进方法进行了比较,以验证其有效性。此外,我们还进行了详细的消融研究,以分析CLIP-FSAR的属性。

4.1 实验设置

数据集。我们在五个常用的少样本动作数据集上验证了我们的方法,包括SSv2-Full、SSv2-Small、Kinetics、UCF101和HMDB51。在SSv2-Full、SSv2-Small和Kinetics上,我们随机抽取64个类别作为基础类别,24个类别作为新类别,以进行公平比较。对于UCF101和HMBD51,我们遵循中的数据集分割来评估我们的CLIP-FSAR。

评估协议。按照之前的作品,我们在5路K样本设置下报告我们CLIP-FSAR的性能,K的范围从1到5。实现细节。我们的实验实现是基于PyTorch库开发的,并使用Adam优化器进行训练。在像SSv2-Full这样的运动偏差数据集上,我们使用0.00005的学习率来训练模型。在外观偏差数据集上,例如UCF101,模型使用0.00001的学习率进行优化。在每次优化迭代中,我们输入20个情节任务来训练模型,即批量大小为20。为了简单起见,除非另有说明,我们采用OTAM作为基线对齐度量。按照之前的方法,在训练过程中,我们从每个视频中均匀且稀疏地采样8帧以编码视频表示。在训练过程中,采用了几种标准的数据增强技术,如随机裁剪和颜色抖动。我们考虑了两种CLIP模型来验证我们的CLIP-FSAR,即CLIP-RN50和CLIP-ViT-B。在许多样本场景中(例如5样本),我们采用简单但有效的平均原则来生成平均支持特征,然后输入到原型调制中。在推理过程中,我们报告了随机抽取的10,000个少样本任务的平均准确率。

基线。现有的少样本动作识别方法如OTAM、TRX、ITANet和HyRSM都使用单模态ImageNet预训练。为了验证我们方法的有效性,我们主要考虑两种典型的基线方法,它们使用CLIP初始化。第一种是OTAM,我们将原来ImageNet预训练替换为CLIP的视觉编码器进行端到端训练。第二种是CLIP-Freeze,它直接利用预训练视觉编码器的输出特征,并使用OTAM度量进行少样本匹配,而不需要在基础数据集上重新训练。

4.2 与最先进方法的比较

为了验证所提出框架的有效性,我们在五个标准数据集上比较了我们的CLIP-FSAR与当前最先进少样本动作识别方法的性能。结果总结在表1和表2中。从实验结果中,我们可以得出以下观察结果:(a)与OTAM基线相比,我们的方法可以通过利用CLIP的多模态知识显著提升性能。例如,在5路1样本SSv2-Full设置下,我们的方法使用CLIP-RN50和CLIP-ViT-B分别实现了14.0%和11.7%的增益。值得注意的是,基于CLIP-ViTB的我们的CLIP-FSAR始终优于其他最先进的技术,证明了我们方法的有效性。(b)通过比较OTAM和具有相同CLIP视觉编码器的CLIP-Freeze的结果,我们可以看到在少样本动作识别任务上重新训练CLIP可以使它适应下游任务并进一步提高性能。(c)基于CLIP-VIT-B的CLIP-FSAR通常实现了优于基于CLIP-RN50的结果,表明更强的预训练模型会导致更好的少样本泛化。此外,多模态预训练CLIP显示出比ImageNet预训练更好的性能。(d)CLIP-FSAR与基线之间的性能差距在较小的射击次数下更显著,并随着射击次数的增加而逐渐缩小。我们将其归因于引入文本语义线索在视觉信息不足时更有效。同样,与基线相比,基于CLIP-RN50的性能增益比CLIP-ViT-B更显著。在Kinetics数据集上,1-shot性能差距是11.2%(87.6% vs. 76.4%)在CLIP-RN50上,而在CLIP-ViT-B上是1.5%(89.7% vs. 88.2%)。(e)通过将视频-文本匹配结果纳入少样本分类中,即CLIP-FSAR†,性能也在一定程度上得到了提高。为了进一步验证我们框架的可插拔性,我们将提出的方法作为即插即用组件应用到现有度量或方法中,如Bi-MHM、ITANet和TRX。从表3中,我们可以发现在扩展我们的CLIP-FSAR到这些技术时也取得了显著的性能提升,表明我们的方法是一个通用架构。

4.3 消融研究

为了研究CLIP-FSAR中每个组件的贡献,我们进行了一系列详细的消融研究。除非另有说明,我们采用CLIP-RN50模型作为比较实验的默认设置。

组件分析。在表4中,我们研究了视频-文本对比目标和原型调制在提出的CLIP-FSAR中的作用。通过执行视频-文本对比,我们在Kinetics上分别获得了4.0%和2.7%的1-shot和5-shot改进。这种持续的推动表明了适应CLIP到少样本视频任务的重要性。同样,实施原型调制在SSv2-Small数据集上提供了10.9%和3.4%的性能增益。我们观察到性能增益在1-shot场景中尤为显著,表明在视觉信息非常有限时,补充文本语义信息将更加有效。此外,最佳性能是通过联合训练两个组件实现的,这从实证上验证了视频-文本对比目标和原型调制相互补充。

改变时间Transformer层数。为了探索应用的时间Transformer层数的影响,我们在SSv2-Small和Kinetics上进行了消融研究。结果在表5中呈现,我们可以注意到在SSv2-Small上,随着Transformer层数的增加,性能逐渐提高,超过特定值后开始出现过拟合。不同地,在Kinetics数据集上,单层Transformer就足够了,我们将其归因于这个数据集相对基于外观,时间建模对于识别不太关键。为了平衡精度和效率,我们采用单层时间Transformer作为我们的默认设置。

原型调制方案的影响。在表6中,我们进行了消融实验,比较了几种常用的时间聚合操作符,如Bi-LSTM、Bi-GRU和时间Transformer,以进一步分析不同原型调制方案的效果。我们观察到时间Transformer由于灵活的信息交互和Transformer的强大泛化能力而始终优于其他竞争者。此外,Transformer的输出与原型调制机制中输入的语义特征和视觉特征的相对位置无关的特性,使其更适合我们的框架。请注意,在原型调制中,通过位置编码已经将位置信息注入到视觉特征中,而文本特征没有额外的位置编码。在表7中,我们探索了时间建模对少样本性能的影响,并发现时间建模有助于提高性能,并且主要改进来自于文本信息的注入。例如,原型调制将5路1-shot SSv2-Small的结果从39.9%提高到50.8%,提高了10.9%,而使用时间Transformer进行时间建模提高了0.6%。为了进一步分析应用于支持和查询视频的时间Transformer是否应该共享权重,我们在表8中进行了实验比较。实验结果揭示了共享权重允许查询和支持样本在相同的特征空间中,从而实现更好的少样本动作识别结果。

不同的视频-文本对比方式。我们在视频-文本对比阶段没有引入时间建模,以便与原始CLIP预训练方式保持一致,而不需要为简单适应少样本动作识别任务而设计复杂的模块。在表9中,我们比较了引入时间建模的设置和默认设置,并观察到两者产生相当的表现,而默认设置没有引入额外的参数。

超参数敏感性分析。在方程6中,我们引入了一个超参数 α \alpha α来平衡两个损失项。如图3a所示,我们报告了消融结果。我们可以观察到这个参数对性能的影响相对较小,CLIP-FSAR始终保持领先地位。我们还对合并预测CLIP-FSAR†中的 β \beta β进行了实验分析,如图3b所示,并发现不同数据集上的 β \beta β值是不同的。在运动偏差的SSv2-Small数据集上,较小的 β \beta β值可以实现更好的性能,而在外观偏差的Kinetics数据集上需要较大的值。

不同输入视频帧数的变化。为了与之前的方法进行公平比较,我们在实验中从每个视频中采样8帧来编码视频表示。我们进一步分析了不同输入视频帧数的影响,如图4所示。结果表明,随着输入视频帧数的增加,CLIP-FSAR的性能逐渐增加并最终饱和。值得注意的是,我们的方法始终优于基线,表明了CLIP-FSAR的可扩展性。CLIP-Freeze的一个有趣现象是振荡结果,我们将其归因于CLIP最初是为图像领域预训练的,如果不进行适应,就不能感知视频中的运动模式。N路分类。我们还消融了N对少样本性能的影响。N路1-shot比较结果如图5所示,其中N从5变化到10。我们可以观察到,较大的N表示分类难度更大,性能较低。例如,CLIP-FSAR在10路SSv2-Small上的结果比5路结果下降了14.3%。尽管如此,CLIP-FSAR在各种设置下仍然显著优于比较方法,表明了我们方法的有效性。

泛化分析

我们的CLIP-FSAR基于预训练的视觉和文本编码器进行比较实验。为了进一步探索我们的框架是否可以扩展到标准的单模态预训练初始化,我们用在ImageNet上预训练的模型替换了视觉编码器,并保持文本编码器不变。如图10所示,我们在不同深度的三个ImageNet初始化模型上进行了实验,分别是ResNet-18、ResNet-34和ResNet-50。结果充分表明,我们的方法可以有效提高这些基线方法的性能,例如,CLIP-FSAR使用ResNet-18将1-shot SSv2-Small的性能从35.8%提高到46.0%,这充分展示了我们框架的泛化能力。在表11中,我们还将我们的CLIP-FSAR框架应用于自监督DINO方法。具体来说,我们将CLIP-FSAR中的视觉编码器替换为公开可用的在ImageNet上自监督预训练的DINO ResNet-50模型,并保持文本编码器不变。从结果中,我们注意到基于OTAM和TRX,我们的框架仍然比简单基线实现了令人印象深刻的性能提升,表明了我们方法的强大泛化性。

参数数量和推理延迟

在表12中,我们展示了不同方法在参数数量、计算量、推理延迟和性能方面的比较。我们观察到,提出的CLIP-FSAR展示了最佳性能,并且仅略微增加了推理延迟,从而在准确性和性能之间实现了优越的平衡。

零样本性能

尽管我们的CLIP-FSAR最初是为少样本动作识别任务设计的,但我们也可以使用视频-文本对比目标进行零样本分类。为了方便起见,我们使用与少样本评估相同的数据分割,训练集上训练,在测试集上进行零样本分类。5路零样本实验比较显示在表13中。可以发现,我们的方法与CLIP-Freeze相比表现出更好的性能。例如,我们的方法使用CLIP-ViT-B在HMDB数据集上比CLIP-Freeze实现了11.2%的性能提升。这可以通过我们CLIP-FSAR对视频任务的适应来解释。

4.4 可视化分析

为了进一步定性分析我们的CLIP-FSAR,我们在测试阶段可视化了有无原型调制的特征分布变化,如图6所示。通过比较结果,我们可以观察到明显的改进:类内分布更加紧凑,类间特征更具区分性。上述发现验证了我们CLIP-FSAR的合理性和优越性。为了深入分析我们CLIP-FSAR的属性,我们在HMDB51和UCF101的测试集上可视化了两个失败案例,如图7所示。我们可以看到,我们的CLIP-FSAR仍然将一些具有相似运动模式的细粒度动作类别误分类,例如“Kick Ball”和“Kick”。此外,一些视频的外观太相似了,例如图7中的“Surfing”和“Skiing”的例子,即使引入了额外的文本信息,也很难区分它们。

4.5 局限性

在我们的CLIP-FSAR中,我们采用了广泛使用的提示模板,即“a photo of [CLS]”,作为默认设置。在表14中,我们探索了不同文本提示的影响,并发现不同的提示模板在不同数据集上的表现不一致,例如,“[CLS]”在SSv2-Small上表现最佳,而在Kinetics数据集上表现最差。研究设计通用且有效的文本提示形式将是有价值的工作。此外,我们主要关注视觉方面来调制原型,并没有考虑一些潜在的改进在文本方面,例如使用视觉信息来细化文本特征。我们将上述讨论留作未来的工作。

5 结论

在本文中,我们提出了一种名为CLIP-FSAR的方法来解决CLIP模型的少样本动作识别问题,我们充分利用了CLIP的多模态知识。视频-文本对比目标被利用来适应CLIP模型到少样本视频任务。此外,我们提出使用文本特征通过实现时间Transformer来自适应地调制视觉支持原型。在五个常用基准上的广泛实验表明,我们的CLIP-FSAR显著优于当前的最先进方法。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值