论文笔记
1 介绍
1.1 引子
在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享约束共同学习时空特征。
给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像。 然后将2D卷积应用于每组2D图像。
图1示出了来自示例性视频剪辑的三个视图的2D快照,其中一个人在体育场高跳。
H-W的视图是人类熟悉的自然景观。 通过在时间T上从该视图逐帧扫描视频,我们能够理解视频内容。 尽管来自涉及T(即T-W和T-H)的视图的快照难以为人类解释,但它们包含与正常H-W视图完全相同的信息量。
更重要的是,丰富的运动信息嵌入在每个帧内而不是帧之间。 因此,T-W和T-H视图的帧上的2D卷积能够直接捕获时间运动线索。 如图2(c)所示,通过融合三个视图的互补空间和时间特征,我们能够使用2D卷积而不是3D卷积来学习时空特征。
1.2 CoST 学习架构
基于CoST操作,我们构建卷积神经网络。 我们今后将把操作和网络都称为CoST
不同视图的卷积内核可以共享的原因:
(1)从不同视图的框架的可视化来看(见图1),它们的视觉外观是兼容的。例如,在时间视图(T-H和T-W)中也存在常见的空间模式,如边和颜色斑点。因此,同一组卷积核可以应用于不同视图的帧上。
(2)C2D网络中的卷积核本质上是冗余的,(???)没有修剪[9,15,31]。而冗余核可以通过权值共享的方式进行时间特征学习。
(3)可以大大减少了模型参数的数量,使网络更容易训练,不易过度拟合,性能更好。
(4)此外,静态图像空间特征学习的成功(如精心设计的网络结构和预训练参数)可以很容易地转移到时间域。(因为作者做到了在每个视图中学习每个通道的独立系数,这使得网络可以按需处理空间或时间特征。)
1.3 CoST 的优点
与C2D相比,CoST可以共同学习时空特征。 与C3D相比,CoST基于2D而不是3D卷积。 CoST基本上弥合了C2D和C3D之间的差距,从而保留了双方的优势,即C2D的紧凑性和C3D的表现能力。
对于视频中的动作识别任务,实验表明CoST比C2D和C3D都具有更好的性能。
2 代码实现
continue 。。。