ICLR 2024 |冻结住的CLIP仍可作为教师模型!

 标题:FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition

背景介绍

本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是CLIP)先在视频数据集上进行fine-tuning,然后再进行测试集的验证。通过实验探索,我们发现:尽管fine-tuning可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练CLIP模型了。因此如何让视频模型在fine-tuning的同时还能保持住预训练的知识,成为了本文的研究重点。

问题探究

我们首先尝试了一组在闭集场景下表现优异的CLIP-based的视频模型:Action CLIP[1] , AIM ST-Adapter [2]以及 ST-Adapter[3]。 具体的实验设置为:首先将模型在Kinetics-400上进行fine-tuning,然后在UCF-101,HMDB-51以及Kinetics-600数据集上分别进行了测试。需要特别注意的是,针对Kinetics-600数据集,我们将验证集中与Kinetics-400相同的类别剔除,以保证开集验证的可靠性。实验结果如下图1所示。

图1: 跨数据集性能探究

不难发现,在UCF-101与HMDB-51数据集上,fine-tune模型的性能比Frozen CLIP更强,但是在Kinetics-600数据集上,fine-tune模型的实验性能却比frozen CLIP要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51和Kinetics-600)之间的类别相似性关系。具体来说,我们用CLIP的text encoder提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图1中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101和HMDB-51),fine-tune模型相较Frozen CLIP的性能表现更加优异。反之,在Kinetics-600上,fine-tune模型的性能则更弱。针对这个现象,一个可能的解释是:在与训练数据更相似的测试类别上,模型通过fine-tuning学习到的知识可有效地被用作识别,因此性能更好。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在fine-tune的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此fine-tune模型性能更差。受这些实验现象的启发,我们认为一个基于CLIP的开集动作识别模型应该具备以下特点:

  1. 由于CLIP预训练是没有使用视频数据集的,因此模型需要学习视频域的相关知识(video-specific),用于弥补CLIP在时域建模方面的不足。
  2. 模型需要能保持住预训练CLIP的能力,这对于泛化性能力的保持很重要。

为了验证以上猜想,我们直接将fine-tune 模型和frozen clip的结果进行相加后平均输出。如图1所示,可以发现ensemble的所有模型在三个数据集上的性能都获得了较大程度的提升,这有效地验证了我们的假设。但是直接采用ensemble的方式,计算量和参数量都将会成倍地增加。

方案设计

为了解决以上问题,如图2所示,我们提出了一种新的结构FROSTER用来同时实现以上两个目标:针对第一点(时域建模),我们直接采用cross-entropy loss对fine-tune模型进行监督。针对第二点(泛化性特征保持),我们将frozen clip作为teacher模型对fine-tune模型的特征进行蒸馏,借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项,确保fine-tune特征不会偏离frozen clip的特征太远。因为有两个不同的目标,我们需要在它们之间平衡特征学习。

图2: 模型结构示意图

 

图3: 残差特征蒸馏

 以冻结的CLIP模型作为教师模型,实现基于特征的蒸馏有两种常见的方法,如图所示(a)和(b)。如图(a)所示,由于fine-tune模型和frozen CLIP输出特征的维度保持不变,我们可以直接在它们之间进行特征蒸馏,无需进行特征投影。然而,这种监督要求fine-tune特征保持与预训练特征相同,这限制了fine-tune 特征学习视频知识的能力。另一种可能的方法(如图(b)所示)是应用一个投影器,将fine-tune特征从学生空间映射到教师空间。这可以放宽对fine-tune特征的约束,以便更好地拟合视频数据。然而,在这种条件下,蒸馏loss对fine-tune特征的约束可能过于宽松,从而限制了其泛化能力。因此,我们需要在上述两种方法之间找到一个折中方案,考虑到两个学习目标。

受到ResNet残差设计的启发,我们提出了一个改进的残差网络,用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许fine-tune特征有效地接受frozen clip的监督,同时也保持对视频特征的有效学习。如图(c)所示,我们在特征上应用一个改进的残差网络,通过两层MLP投影器和恒等映射来转换其表示。

残差特征映射

总的损失函数由两个部分组成:交叉墒loss和蒸馏loss:

损失函数构成

实验结果

我们总的在两个实验设置下进行实验:base-to-novel和cross-dataset。

Base-to-novel是将每个数据集的类别分成两个不重叠的部分,完成在训练集类别上进行16-shot的训练后,在测试集上进行测试。实验数据集总共包含K-400,HMDB-51,UCF-101和SSv2。

Cross-dataset是在K-400 数据集上进行训练,然后在HMDB-51,UCF-101和K-600上进行测试。

下表为模型在base-to-novel和cross-dataset两个场景下的实验精度,FROSTER均达到了最佳。

Base-to-novel 场景
Cross-dataset 场景

 同时,FROSTER还可以与不同的模型结构结合到一起,都能有效地提升实验结果。

FROSTER与不同模型结构结合
不同蒸馏方式的影响

 

可视化对比:我们的模型能够更多的关注到和动作类别有关的区域

总结

本文针对开集动作识别任务提出了一种的新的模型结构,用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。

另:开集动作识别是一个较新的领域,目前还有很多可以探究的问题。

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.


 在【AI技术星球】VX公众号后台回复:211,获取论文代码,赶快学起来!

还可以论文指导发刊的 【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、大佬Kaggle带队拿牌、 润色发刊等 】 

白嫖100G入门到进阶AI资源包+kaggle带队拿牌+就业指导+技术问题答疑

资料包:1、超详细的人工智能学习路

2、OpenCV、Pytorch、YOLO等教程

3、人工智能快速入门教程(Python基础、数学基础、NLP)附源码课件数据

4、机器学习算法+深度学习神经网络基础教程

5、人工智能必看书籍(花书、西瓜书、蜥蜴书等)

6、顶刊论文及行业报告

7、SCI论文攻略 及润色等

(需要这个资源包的记得说明您还需要这个资料包)

 一些论文指导老师 

 

 

  • 15
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值