Two-Stream Convolutional Networks for Action Recognition in Videos
主要贡献
①提出了一种融合时空网络的双流ConvNet体系结构;
②证明了在多帧密集光流上训练的卷积神经网络在训练数据有限的情况下能够取得很好的性能;
③证明了应用于两个不同的动作分类数据集的多任务学习可以增加训练数据的数量,并提高两者的性能。
光流卷积网络
模型的输入是通过在几个连续帧之间叠加光流位移场而形成的。
一个密集光流可以看做是在连续的帧t和帧t+1之间的一个位移矢量场dt的集合。通过dt(u,v),我们表示在帧t的(u,v)位置的位移矢量。矢量场的水平和垂直部分是
d
t
x
dt^x
dtx和
d
t
y
dt^y
dty,可以视为图像的通道,在卷积网络中可以用来识别。为了表示一系列帧之间的运动,我们叠加了L个连续帧的流通道
d
t
x
y
dt^{xy}
dtxy,行成了2L的输入通道。
设定w和h是视频的宽和高,对于任意帧τ,卷积网络输入容量为
I
τ
I_τ
Iτ ∈
R
w
×
h
×
2
L
R^{w×h×2L}
Rw×h×2L
(1)左:光流叠加,在多帧中对同一位置的位移向量d进行采样。
(2)右:轨迹叠加,沿着轨迹对向量进行采样。
双向光流:叠加帧τ到帧τ+L/2之间共L/2个前向流和帧τ-L/2到帧τ至今的L/2个后向流。
实验结果
1.空间卷积网络不同训练设置对比实验和时间卷积网络的不同输入对比实验
预训练是在ILSVRC-2012上进行。对空间卷积网络,Pre-trained + last layer最佳;对时间卷积网络,光流叠加优于轨迹叠加,且采用双向叠加光流只比单向向前光流好一点点。
2.多任务学习对时间卷积网络准确率的影响实验
多任务学习有助于提高准确率
3.双流卷积网络不同配置的对比实验
Pre-trained + last layer加uni-directional, multi-task加SVM最佳
4.与其他方法的比较
可与最近最先进的手工制作模型相媲美。