关注公众号,发现CV技术之美
本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』,假设视频动作识别不是分类问题,而是检索问题?并基于 CLIP,浙大提出 ActionCLIP,用检索的思想做视频动作识别!性能 SOTA!代码已开源!
详细信息如下:
论文链接:https://arxiv.org/abs/2109.08472
项目链接:https://github.com/sallymmx/ActionCLIP
导言:
视频动作识别的标准方法要求神经模型执行经典的1-of-N投票任务。他们被训练来预测一组固定的预定义类别,从而限制了他们在具有未知概念的新数据集上的可迁移能力。
在本文中,作者通过重视标签文本的语义信息,而不是简单地将它们映射成数字,为动作识别提供了一个新的视角。具体地说,作者将此任务建模为多模态学习框架内的视频文本匹配问题,该框架通过更多语义语言监督来增强视频表示,并使模型能够进行Zero-Shot动作识别,而无需任何进一步的标记数据或参数要求。
此外,为了解决标签文本的不足和利用大量的网络数据,作者提出了一种基于多模态学习框架的行为识别新范式,称之为 “预训练、提示和微调”(“pretrain, prompt and fine-tune”)。该范式首先从大量web图像文本或视频文本数据的预训练中学习强大的表示。然后通过prompt engineering使动作识别任务更像预训练的问题。最后,它对目标数据集进行端到端的微调,以获得强大的性能。
作者给出了新范式ActionCLIP的一个实例,它不仅具有优越且灵活的zeroshot/fewshot迁移能力,而且在一般动作识别任务中达到了最高性能,在Kinetics-400上用ViT-B/16作为 Backbone上实现了83.8%的top-1准确率。
01
Motivation
视频动作识别是视频理解的第一步,是近年来视频研究的热点。作者观察到它主要经历了两个阶段,feature engineering 和 architecture engineering。由于在Kinetics等大型数据集诞生之前,没有足够的数据来学习高质量的模型,早期的方法侧重于feature engineering,利用他们的知识设计特定的手工表达。
然后,随着深度神经网络和大型基准测试的出现,现在进入了第二阶段,即architecture engineering。通过合理吸收时间维度,出现了许多设计良好的网络,如two-stream网络、三维卷积神经网络(CNN)、计算高效的网络和基于Transformer的网络。
尽管特征和网络结构在过去几年中得到了很好的研究,它们经过训练,可以在单模态框架内预测一组固定的预定义类别,如上图(a)所示。但是这种预先确定的方式限制了它们的通用性和使用,因为需要额外的带标签的训练数据才能迁移到任何其他新的概念。
与以前那样直接将标签映射到数字相比,直接从文本中学习是更加有