文章目录
一、文章解决的问题
1.提出了two-stream结构的CNN,由空间和时间两个维度的网络组成
2.使用多帧的稠密光流场作为训练输入,可以提取动作的信息
3.利用了多任务学习的方法把两个数据集联合起来
二、论文细节
1.双流网络的具体结构是什么
该网络有两个独立的识别流——空间和时间,在网络尾部再用softmax融合在一起。空间流(Spatial stream ConvNet)从静态的视频单帧中识别动作,而时间流(Temporal stream ConvNet)以稠密光流的形式从运动中识别动作。这两个流均为ConvNets。时间流的输入是通过几个连续帧之间叠加光流位移场来实现的。
双流网络的结构,由两个独立的网络构成,Spatial stream ConvNet的输入是单张图像,用来对目标和场景的appearance提取特征(有些action的识别依赖单张图像就够,有些则必须依赖运动和时间特征)。Temporal stream ConvNet的输入是多张相邻帧的光流,对motion特征进行表示。通过两个网络的softmax输出向量进行融合,来最终确定分类。
2.两个网络怎么合并在一起
空间流和时间流分别经过softmax后做class score fusion
(1)求平均
(2)以L2正则化的softmax输出作为特征,训练多分类线性S