关注公众号,发现CV技术之美
本文分享 CVPR 2022 论文『Cross-Architecture Self-supervised Video Representation Learning』,提出问题:不同网络结构的特征也能进行对比学习?并由蚂蚁&美团&南大&阿里提出跨架构自监督视频表示学习方法CACL,在视频检索和动作识别任务上SOTA!
详细信息如下:
论文链接:https://arxiv.org/abs/2205.13313
项目链接:https://github.com/guoshengcv/CACL
01
摘要
在本文中,作者提出了一种新的用于自监督视频表示学习的跨架构对比学习(cross-architecture contrastive learning,CACL)框架。CACL由一个3D CNN和一个视频Transformer组成,它们被并行使用以生成用于对比学习的各种正对。这使得模型能够从这些不同但有意义的对中学习强表示。
此外,作者引入了一个时间自监督学习模块,该模块能够按照时间顺序显式预测两个视频序列之间的编辑距离,这使得模型能够学习丰富的时间表示。作者对本文的方法在UCF101和HMDB51数据集上的视频检索和动作识别任务进行了评估,结果表明本文的方法取得了优异的性能,大大超过了Video MoCo和MoCo+BE等最先进的方法。
02
Motivation
视频表征学习是视频理解的一项基本任务,因为它在各种任务中发挥着重要作用,例如动作识别、视频检索。最近的工作致力于通过以监督学习方式使用深度神经网络来提高其性能,这通常需要一个具有非常昂贵的人类标注的大规模视频数据集,如Sports1M、Dynamics、HACS和MultiSports。巨大的标注成本不可避免地限制了深度网络在学习视频表示方面的潜力。因此,利用易于大规模访问的未标记视频来改进这项任务非常重要。
近年来,自监督学习在学习强图像表示方面取得了重大进展。它还被扩展到了视频领域,在视频领域对比学习得到了广泛的应用。例如,在最近的工作中,引入对比学习来捕获两个视频实例之间的区别,这使得对比学习能够学习每个视频实例中的表示。然而,在这些方法中,对比学习主要侧重于学习视频的全局时空表示,而很难捕获有意义的时间细节,这些细节通常为区分不同的视频实例提供重要线索。因此,与学习图像表示不同,建模时间信息对于视频表示至关重要。在这项工作中,作者提出了一种新的自监督视频表示方法,该方法能够在一个独特的框架中同时执行视频级对比学习和时间建模。
通过探索视频的序列性质,可以创建学习时间信息的监督信号,从而实现自监督学习。最近的一些方法遵循这一研究路线,创建了一个实现自监督时间预测的借口任务( pretext task)。在这项工作中,shuffle。这使模型能够明确地量化编辑距离中的时间差异程度,而现有的自监督方通常仅限于估计时域中两个视频的大致差异。例如,以前的方法经常创建一个借口任务来预测两个视频序列的速度或播放速度是否相同,但忽略了这种时间差异中的细节。
虽然大多数自监督对比学习