#今日论文推荐#CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

#今日论文推荐#CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

在过去几年中,基于深度学习的视频理解在视频分类任务上取得了巨大成功。I3D 和 SlowFast 等网络通常将短视频片段(64 帧,~3 秒)作为输入,提取全局表征来预测动作类别。
但是这样的设定有两个主要的限制。第一,在一些应用中,我们需要每帧画面的表示来更精细地理解动作,而不只是一个全局动作表示。第二,现实世界中的大多数视频都具有较长的持续时间,因此我们需要对较长的上下文进行有效的建模。为此,我们引入了长视频的逐帧动作表示学习任务。其有诸多应用,例如,我们可以执行细粒度的帧检索来搜索我们想要的确切帧。我们还可以执行阶段分类来识别复杂动作的每个阶段。
此外,我们可以进行时间视频对齐来对齐描述相同过程的两个视频。其他一些研究领域也需要逐帧表示。例如,在机器人模仿学习中,模型需要对人类动作进行编码并指导机器人的动作。在手语翻译中,利用每一帧的表示来翻译手语。

然而,如果要标记每一帧以执行监督学习是很困难的,甚至是不可能的。为了减少对标记数据的依赖性,TCC、LAV 和 GTA 等方法通过使用循环一致性损失或可微时间动态规划来进行弱监督学习。然而这些方法都依赖于视频层面的注释,并且需要用具有相同动作的成对视频进行训练。
本研究的目的是以自监督方式学习长视频中具有时空上下文信息的逐帧表征。受最新的对比表征学习方法 SimCLR 的启发,我们提出了一个新框架——对比动作表征学习(CARL)。我们假设在训练期间没有任何可用的标签,并且训练和测试集中的视频都很长(数百数千帧)。此外,我们不依赖具有相同动作的成对视频进行训练,从而能够以更低的成本扩大训练集规模。
图 2 中我们对 CARL 架构进行了概述。首先通过一系列时空数据增强为输入视频构建两个增强视图。此步骤称为数据预处理。然后,我们将两个增强视图输入到帧级视频编码器(FVE)中,以提取密集表征。遵循 SimCLR,FVE 附加了一个小型投影网络,它是一个两层的 MLP,用于获得潜在嵌入。由于时间上相邻的帧高度相关,我们假设两个视图之间的相似性分布遵循先验高斯分布。基于此,我们提出了一种新的序列对比损失(SCL)来优化嵌入空间中的逐帧表征。

论文题目:Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning
详细解读:https://www.aminer.cn/research_report/62a2aa227cb68b460fcec909?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值