Two-Stream Convolutional Networks for Action Recognition in Video
我们提出了一种有区分训练的卷积网络来识别视频中的动作。挑战是从视频帧中获取外观和运动的互补的信息。我们的三个贡献:第一,提出了时间和空间分离的两路卷积网络结构。第二,证明了在多帧密集光流上训练,能够实现很好的性能。第三,多任务学习,应用在两个不同的动作分类数据集上,能够增加训练的数据量,提高性能。
视频能够被分为时间和空间两部分。在空间部分,每一帧的表现形式,携带有场景和目标等信息。在时间部分,在帧与帧之间存在运动信息,包含目标物体和相机的运动信息。每一流用一个深度卷积网络来实现,每一流的softmax分数在最后进行融合。我们考虑了两种融合的方法:求平均值和在一个叠放的L2正则化的softmax得分上训练一个多类的线性SVM。
光流卷积网络:我们模型的输入是几个相邻帧的堆叠的光流位移。这些输入能够描述出视频帧的运动信息。
光流堆叠:一个密集的光流能够被看做是一系列连续帧的位移向量。水平和垂直两部分分开。为了表示一个序列帧的运动信息,我们堆叠L个连续帧的流通道来形成一个总数为2L个输入通道。
轨迹堆叠:另一个可供选择的运动表示,受到基于轨迹描述子的启发,取代光流,在连续几帧相同的位置上采样,根据光流,得到轨迹的运动信息。
双向光流:
减去平均光流:
时间域卷积网络结构与先前的表示的关系:在本文中,运动信息通过用光流位移来准确的表示。
多任务学习:因为视频训练的数据集相对较小,容易产生过拟合,为了避免这种情况的发生,我们合并多个数据集。
实现细节:卷积网络的配置,所有的隐含层用ReLU激活函数;max pooling的大小为3*3,步长为2;时间网络和空间网络位移的不同就是,我们删除了时间网络第二层的正则化来减少内存消耗。