基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!...

浙江大学提出ActionCLIP,将视频动作识别转化为检索问题,基于CLIP模型,通过预训练、提示和微调的新范式,实现性能最优,代码已开源。ActionCLIP在视频文本匹配的多模态框架中进行Zero-Shot/Few-Shot识别,表现出色。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』,假设视频动作识别不是分类问题,而是检索问题?并基于 CLIP,浙大提出 ActionCLIP,用检索的思想做视频动作识别!性能 SOTA!代码已开源!

详细信息如下:

1103db4d3083d710654e75136ce03902.png

  • 论文链接:https://arxiv.org/abs/2109.08472

  • 项目链接:https://github.com/sallymmx/ActionCLIP

导言:

97f0d8bef0d2a405e733ecc78d35e82e.png

视频动作识别的标准方法要求神经模型执行经典的1-of-N投票任务。他们被训练来预测一组固定的预定义类别,从而限制了他们在具有未知概念的新数据集上的可迁移能力。

在本文中,作者通过重视标签文本的语义信息,而不是简单地将它们映射成数字,为动作识别提供了一个新的视角。具体地说,作者将此任务建模为多模态学习框架内的视频文本匹配问题,该框架通过更多语义语言监督来增强视频表示,并使模型能够进行Zero-Shot动作识别,而无需任何进一步的标记数据或参数要求。

此外,为了解决标签文本的不足和利用大量的网络数据,作者提出了一种基于多模态学习框架的行为识别新范式,称之为 “预训练、提示和微调”(“pretrain, prompt and fine-tune”)。该范式首先从大量web图像文本或视频文本数据的预训练中学习强大的表示。然后通过prompt engineering使动作识别任务更像预训练的问题。最后,它对目标数据集进行端到端的微调,以获得强大的性能。

作者给出了新范式ActionCLIP的一个实例,它不仅具有优越且灵活的zeroshot/fewshot迁移能力,而且在一般动作识别任务中达到了最高性能,在Kinetics-400上用ViT-B/16作为 Backbone上实现了83.8%的top-1准确率。

      01      

Motivation


视频动作识别是视频理解的第一步,是近年来视频研究的热点。作者观察到它主要经历了两个阶段,feature engineering 和 architecture engineering。由于在Kinetics等大型数据集诞生之前,没有足够的数据来学习高质量的模型,早期的方法侧重于feature engineering,利用他们的知识设计特定的手工表达。

然后,随着深度神经网络和大型基准测试的出现,现在进入了第二阶段,即architecture engineering。通过合理吸收时间维度,出现了许多设计良好的网络,如two-stream网络、三维卷积神经网络(CNN)、计算高效的网络和基于Transformer的网络。

159e3b7404d1de514661af1e77bd3965.png

尽管特征和网络结构在过去几年中得到了很好的研究,它们经过训练,可以在单模态框架内预测一组固定的预定义类别,如上图(a)所示。但是这种预先确定的方式限制了它们的通用性和使用,因为需要额外的带标签的训练数据才能迁移到任何其他新的概念。

与以前那样直接将标签映射到数字相比,直接从文本中学习是更加有

ActionCLIP是一种新的视频动作识别范式,它将视频动作识别问题视为检索问题而不是分类问题。该方法基于CLIP模型,由浙江大学提出,并在计算机视觉和模式识别领域的论文中进行了介绍\[1\]\[2\]。ActionCLIP利用检索思想进行视频动作识别,并取得了性能上的显著提升,被认为是目前最先进的方法。该方法的代码已经开源,可以在公众号上找到相关信息\[1\]。 ActionCLIP的实现过程是将视频输入到视频编码器中,得到视频的特征向量。然后将标签作为文本输入到文本编码器中,得到文本的特征。接下来,计算文本和图像之间的相似度矩阵,并与预定义的groundtruth计算损失。为了进行对比学习,需要将图像文本对替换为视频文本对。在实现过程中需要解决两个问题,一是如何提取视频的特征,二是如何计算视频文本对的对比损失\[3\]。 总之,ActionCLIP是一种基于检索思想视频动作识别方法,利用CLIP模型进行特征提取和相似度计算,取得了很好的性能。它的开源代码和相关信息可以在公众号上找到\[1\]。 #### 引用[.reference_title] - *1* [基于CLIP浙大提出ActionCLIP,用检索思想视频动作识别性能SOTA代码开源!...](https://blog.csdn.net/moxibingdao/article/details/121601150)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [论文阅读 ActionCLIP: A New Paradigm for Video Action Recognition](https://blog.csdn.net/Jennifer_Love_Frank/article/details/123874162)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [论文阅读-ActionCLIP:A New Paradigm for Video Action Recognition(动作识别)](https://blog.csdn.net/qq_43687860/article/details/127621275)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值