这篇文章发表于2014 NIPS。也是牛津大学产出的。在这篇文章出来之前其实也有人尝试用深度学习来处理行为识别,例如李飞飞团队【Large-scale video classification with】通过叠加视频多帧输入到网络中进行学习,但是不幸的是这种方法比手动提取特征更加糟糕。当这篇文章出来以后才意味着深度学习在行为识别中迈出了重大的一步。
一、前言
这里主要阐述了论文的三个主要贡献点。
- 首先,论文提出了two-stream结构的CNN,由空间和时间两个维度的网络组成。
- 其次,作者提出了利用网络训练多帧密度光流,以此作为输入,能在有限训练数据的情况下取得不错的结果。
- 最后,采用多任务训练的方法将两个行为分类的数据集联合起来,增加训练数据,最终在两个数据集上都取得了更好的效果。(作者提到,联合训练也可以去除过拟合的可能)
二、网络结构
视频天生的可以分为空间和时间两个部分。空间部分,每一帧代表的是表面信息,比如物体、场景等等。而时间部分信息是指帧之间的运动,包括摄像机的运动或者目标物体的运动信息。所以网络相应的由两个深度网络组成,分别处理时间与空间的维度。
每个网络都是由CNN和最后softmax 打分组成。最后的softmax的fusion主要考虑了两种方法:平均,在堆叠的softmax上训练一个SVM。网络结构图如下所示。
三、光流卷积网络
在网络中,时间部分,以连续多帧之间光流场作为输入。因为这种输入能有效的描述视频帧之间的运动&#