Two-Stream Convolutional Networks for Action Recognition in Videos 论文链接
1.双流网络的贡献
- 提出了two-stream的卷积网络结构,由时间网络和空间网络组成;
- 证明了在多帧密集光流上训练的卷积网络,在有限的数据集上仍然能够获得好的性能;
- 使用多任务学习,应用了两种不同的动作分类的数据集,增加了训练集的数据量,并提高了性能。
2.双流网络结构
空间流输入的数据是每个帧的画面,也就是一个静态的图片,该输入描述的是单个帧的运动信息。
时间流输入的数据是多帧密集光流,多帧密集光流是几个连续帧之间堆叠光流位移场,该输入描述了帧之间的运动信息。
图1. 双流网络结构
如上图所示,双流网络的结构分为空间流卷积网络(Spatial Stream ConvNet)和时间流卷积网络(Temporal stream ConvNet)。两个网络的结构是一样的,都是由五个卷积层、两个全连接层和一层softmax组成.两层最后输出的数据结合在一起,结合的方法有平均法和SVM,经过试验验证SVM的结合方法效果较好。