**
论文阅读:Two-Stream Convolutional Networks for Action Recognition in Videos
**
摘要
主要研究如何使用深度卷积神经网络去做视频里的动作识别,难点在于同时学到appearance信息,又能学到motion信息(appearance信息就是从静止的图像上获得这种,包括了物体的形状、大小、颜色以及整体场景信息;motion信息就是物体之间的这个移动信息)。文章提出双流网络,它是由一个空间流和一个时间流两个神经网络组成的,证实了在即使只有少量的训练数据情况下,一个直接在光流数据上训练的神经网络也能取得很好的效果。
原理
视频可以拆分为时间部分和空间部分。空间流去学习空间特征,时间流去学习运动特征,最后的结果通过late fusion合并(加权平均或者SVM分类)
1、空间流:视频一帧输入,类似图像分类任务,使用ImageNet预训练;
2、时间流:输入是光流,
(a)&#x