双流卷积网络阅读笔记

最新推荐文章于 2023-05-25 18:03:35 发布

pissjello

最新推荐文章于 2023-05-25 18:03:35 发布

阅读量2.1k

点赞数 1

分类专栏：视频理解&动作识别文章标签：计算机视觉机器学习卷积网络

本文链接：https://blog.csdn.net/weixin_42416780/article/details/104558962

版权

视频理解&动作识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、原文
Two-Stream Convolutional Networks for Action Recognition in Videos
Karen Simonyan, Andrew Zisserman
2014 Computer Vision and Pattern Recognition 2014
下载链接：添加链接描述
二、双流网络框架
视频被分解为空间和时间成分。空间成分为单帧，即RGB图像。时间成分为光流，描述了观察者和对象的运动情况。两个独立的识别流在softmax层通过以Multi-SVM L2范式方式进行分数融合（实验评估性能优于平均融合方法），组成了双流网络，显著提高了两个单独流网络的性能。
在这里插入图片描述
三、光流
1.定义：一个密集的光流可以看作是连续帧t和t+1之间的一组位移向量场dt。
光流场在水平和垂直的分量，可视为图像通道。dt(u,v)表示在第t帧中点（u，v）处的位移矢量。

2.光流叠加：将L个连续帧的光流通道堆叠，形成2L个输入通道，表示了一系列帧之间的运动。任意帧的卷积网络输入卷可构造为：

在这里插入图片描述
输入卷的第三项堆叠了L帧序列的水平和垂直向量场。

3.轨迹堆叠：受基于轨迹的描述符的启发，用沿运动轨迹采样的光流替换在多个帧相同位置采样的光流。构造输入卷形式如下：
在这里插入图片描述
pk表示了沿轨迹的第k个点，假设轨迹的第一个点从帧τ中位置（u,v）开始，pk可递归定义为：

4.两种光流叠加/堆叠方式的比较

5.双向光流：通过计算另一组相反的位移场获得。

6.平均流减法：通过从每个位移场d中减去其平均矢量，补偿摄像机的运动。换个说法就是对网络输入进行零中心化，因为一个方向的运动和另一个方向的运动一样有可能。

7.计算光流：文章中通过使用OpenCV工具箱实现，并且在训练前预先计算光流，将流的水平和垂直分量线性地重新缩放到[0:255]范围，并用JPEG压缩（解压缩后，将流重新缩放回其原始范围）。这将UCF-101数据集的流大小从1.5TB减少的27GB。

四、空间流卷积网络
本质上是一种图像分类架构。在文中通过使用与时空卷积网络相同的训练和测试数据增强方式在ImageNet ILSVRC-2012上进行预训练，然后在预训练好的卷积网络上训练最后一层（Dropout率=0.5）可以达到最理想的性能。

五、时间流卷积网络
1.输入配置：由于卷积网络需要固定大小输入，故从单个卷Iτ中抽取一个224×224×2L大小的子卷作为输入传递到网络。

2.网络配置：与空间网络基本相同。如架构图所示，对应于CNN-M-2048架构。所有隐藏层权重均用ReLu激活功能；maxpooling在3x3空间窗口以步长2执行。空间和时间卷积网络配置之间的唯一区别是，我们从后者删除了第二个标准化（normalization）层，以减少内存消耗。

3.光流配置
①经过评估得出结论，在输入中叠加多个位移场有益（L=10较佳）；②采用平均流减法补偿摄像机运动对性能有一定提升；
③光流叠加比轨迹堆叠性能更好；
④在时间流网络中采用双流光流仅略优于单向正向流，但在双流网络融合后，双向光流性能反而不如单向正向流。

六、多任务学习
由于UCF-101和HMDB-51数据集大小比较小，通过多任务学习的方法组合两个数据集，增强训练结果。经过评估，多任务学习表现性能更佳。

七、训练
1、使用带动量的小批量随机梯度下降（设置为0.9）学习网络权重。在每次迭代中，通过对256个训练视频（均匀地跨类）进行采样，构建一个256个样本的小批量，从中随机选择一个帧。

2、在空间网训练中，从选定的帧中随机裁剪224×224子图像，然后进行随机水平翻转和RGB抖动。（子图像数从整个帧采样，而不是帧中心）

3、在时间网络训练中，我们计算所选训练帧的光流卷中采样的224×224输入，并随机裁剪和翻转。

4、学习率最初设置为0.01，经过50K次迭代后，学习率变为0.001，经过70K次迭代后，学习率变为0.0001，经过80K次迭代后停止训练。在微调场景中，经过14K次迭代后，该速率变为0.001，并且在20K次迭代后停止训练。

pissjello

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
双流卷积网络阅读笔记

一、原文二、双流网络框架视频被分解为空间和时间成分。空间成分为单帧，即RGB图像。时间成分为光流，描述了观察者和对象的运动情况。两个独立的识别流在softmax层通过以Multi-SVM L2范式方式进行分数融合（实验评估性能优于平均融合方法），组成了双流网络，显著提高了两个单独流网络的性能。三、光流1.定义：一个密集的光流可以看作是连续帧t和t+1之间的一组位移向量场dt。dt(u,v...
复制链接

扫一扫