双流卷积网络阅读笔记

一、原文
Two-Stream Convolutional Networks for Action Recognition in Videos
Karen Simonyan, Andrew Zisserman
2014 Computer Vision and Pattern Recognition 2014
下载链接:添加链接描述
二、双流网络框架
视频被分解为空间和时间成分。空间成分为单帧,即RGB图像。时间成分为光流,描述了观察者和对象的运动情况。两个独立的识别流在softmax层通过以Multi-SVM L2范式方式进行分数融合(实验评估性能优于平均融合方法),组成了双流网络,显著提高了两个单独流网络的性能。
在这里插入图片描述
三、光流
1.定义:一个密集的光流可以看作是连续帧t和t+1之间的一组位移向量场dt。
光流场在水平和垂直的分量,可视为图像通道。dt(u,v)表示在第t帧中点(u,v)处的位移矢量。

2.光流叠加:将L个连续帧的光流通道堆叠,形成2L个输入通道,表示了一系列帧之间的运动。任意帧的卷积网络输入卷可构造为:

在这里插入图片描述
输入卷的第三项堆叠了L帧序列的水平和垂直向量场。

3.轨迹堆叠:受基于轨迹的描述符的启发,用沿运动轨迹采样的光流替换在多个帧相同位置采样的光流。构造输入卷形式如下:
在这里插入图片描述
pk表示了沿轨迹的第k个点,假设轨迹的第一个点从帧τ中位置(u,v)开始,pk可递归定义为:
在这里插入图片描述
4.两种光流叠加/堆叠方式的比较
在这里插入图片描述
5.双向光流:通过计算另一组相反的位移场获得。

6.平均流减法:通过从每个位移场d中减去其平均矢量,补偿摄像机的运动。换个说法就是对网络输入进行零中心化,因为一个方向的运动和另一个方向的运动一样有可能。

7.计算光流:文章中通过使用OpenCV工具箱实现,并且在训练前预先计算光流,将流的水平和垂直分量线性地重新缩放到[0:255]范围,并用JPEG压缩(解压缩后,将流重新缩放回其原始范围)。这将UCF-101数据集的流大小从1.5TB减少的27GB。

四、空间流卷积网络
本质上是一种图像分类架构。在文中通过使用与时空卷积网络相同的训练和测试数据增强方式在ImageNet ILSVRC-2012上进行预训练,然后在预训练好的卷积网络上训练最后一层(Dropout率=0.5)可以达到最理想的性能。

五、时间流卷积网络
1.输入配置:由于卷积网络需要固定大小输入,故从单个卷Iτ中抽取一个224×224×2L大小的子卷作为输入传递到网络。

2.网络配置:与空间网络基本相同。如架构图所示,对应于CNN-M-2048架构。所有隐藏层权重均用ReLu激活功能;maxpooling在3x3空间窗口以步长2执行。空间和时间卷积网络配置之间的唯一区别是,我们从后者删除了第二个标准化(normalization)层,以减少内存消耗。

3.光流配置
①经过评估得出结论,在输入中叠加多个位移场有益(L=10较佳);②采用平均流减法补偿摄像机运动对性能有一定提升;
③光流叠加比轨迹堆叠性能更好;
④在时间流网络中采用双流光流仅略优于单向正向流,但在双流网络融合后,双向光流性能反而不如单向正向流。

六、多任务学习
由于UCF-101和HMDB-51数据集大小比较小,通过多任务学习的方法组合两个数据集,增强训练结果。经过评估,多任务学习表现性能更佳。

七、训练
1、使用带动量的小批量随机梯度下降(设置为0.9)学习网络权重。在每次迭代中,通过对256个训练视频(均匀地跨类)进行采样,构建一个256个样本的小批量,从中随机选择一个帧。

2、在空间网训练中,从选定的帧中随机裁剪224×224子图像,然后进行随机水平翻转和RGB抖动。(子图像数从整个帧采样,而不是帧中心)

3、在时间网络训练中,我们计算所选训练帧的光流卷中采样的224×224输入,并随机裁剪和翻转。

4、学习率最初设置为0.01,经过50K次迭代后,学习率变为0.001,经过70K次迭代后,学习率变为0.0001,经过80K次迭代后停止训练。在微调场景中,经过14K次迭代后,该速率变为0.001,并且在20K次迭代后停止训练。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值