Collaborative Spatiotemporal Feature Learning for Video Action Recognition 阅读笔记

论文笔记

1 介绍

1.1 引子

在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享约束共同学习时空特征。

给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像。 然后将2D卷积应用于每组2D图像。

在这里插入图片描述

图1示出了来自示例性视频剪辑的三个视图的2D快照,其中一个人在体育场高跳。

H-W的视图是人类熟悉的自然景观。 通过在时间T上从该视图逐帧扫描视频,我们能够理解视频内容。 尽管来自涉及T(即T-W和T-H)的视图的快照难以为人类解释,但它们包含与正常H-W视图完全相同的信息量。

更重要的是,丰富的运动信息嵌入在每个帧内而不是帧之间。 因此,T-W和T-H视图的帧上的2D卷积能够直接捕获时间运动线索。 如图2(c)所示,通过融合三个视图的互补空间和时间特征,我们能够使用2D卷积而不是3D卷积来学习时空特征。

1.2 CoST 学习架构

基于CoST操作,我们构建卷积神经网络。 我们今后将把操作和网络都称为CoST

在这里插入图片描述

不同视图的卷积内核可以共享的原因:

(1)从不同视图的框架的可视化来看(见图1),它们的视觉外观是兼容的。例如,在时间视图(T-H和T-W)中也存在常见的空间模式,如边和颜色斑点。因此,同一组卷积核可以应用于不同视图的帧上。

(2)C2D网络中的卷积核本质上是冗余的,(???)没有修剪[9,15,31]。而冗余核可以通过权值共享的方式进行时间特征学习。

(3)可以大大减少了模型参数的数量,使网络更容易训练,不易过度拟合,性能更好。

(4)此外,静态图像空间特征学习的成功(如精心设计的网络结构和预训练参数)可以很容易地转移到时间域。(因为作者做到了在每个视图中学习每个通道的独立系数,这使得网络可以按需处理空间或时间特征。)

1.3 CoST 的优点

与C2D相比,CoST可以共同学习时空特征。 与C3D相比,CoST基于2D而不是3D卷积。 CoST基本上弥合了C2D和C3D之间的差距,从而保留了双方的优势,即C2D的紧凑性和C3D的表现能力。

对于视频中的动作识别任务,实验表明CoST比C2D和C3D都具有更好的性能。

2 代码实现

continue 。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值