8A、动作识别的时空卷积研究---学习笔记

0、摘要

讨论了几种用于视频分析的时空卷积形式,并研究其对动作识别的影响
主要思想:
将3D卷积分解为时间和空间维度在精度上可以得到很大的提高
工作:
1、实证证明,用残差网络为骨架的3D比2D的精度有所提高,当训练大规模数据集并保持同一深度的时候
2、实证研究导致一共新的时空卷积快“R(2+1)D”的设计,该块产生的结果很好
(empiracally demonstrate 就是用实验得到的模型)

1、介绍

1、从2D开始入手:
2D在alexNet中有很好的表现,但是3D视频方向好型是静止的。2D我i放模拟时间信息和运动模式,因为在第一层,时间信息就没有了
2、为什么用残差网络的骨架
残差学习被认为是静止图像识别领域的强大工具
3、受3D好的结果的启发,想出来两种新形式的时空卷积
1、MC(混合卷积):先3D网络再2D网络,串行排列
2、(2+1)D:将3D卷积拆分为时间1D和空间2D并进行串行分析

2、相关工作

视频理解的手工特征<在图片中的CNN<CNN的一系列变形<3D<3D变形(two stream、TSN)<R(2+1)D好的效果<与其他模型进行对比
1、TSN侧重于分解,TSN由底层的几个空间层和顶层的两个并行时间层实现;R(2+1)D侧重于层的分解,分解成空间卷积和时间卷积
2、P3D包括三个不同形式的残差块,时间空间,空间时间,空间和时间并行,三个块按顺序交织形成P3D;R(2+1)D在所有层中均匀地使用单一类型的时空残差块
3D cnn在大规模数据集[36]上训练时,显示出强大的动作识别结果。3D cnn特征也被证明可以很好地推广到其他任务,包括动作检测[28]、视频字幕[24]和手势检测[23]。

3、视频的卷积残差块

使用残差网络中的“vanilla”作为骨架

3、1R2D:在整层上使用2D卷积

在这里插入图片描述
忽略了视频中的时间顺序,并将L帧类比为通道
将4D输入重塑为3D张量,3D用于滤波器,每个滤波器产生一个单通道输出
R2D中的第一个卷积层在单通道特征映射中折叠视频的整个时间信息,从而防止在后续层中发生任何时间推理。

3、2f-R2D:在每帧上使用2D卷积

通过一系列2D卷积残差块独立处理L帧,相同的过滤器应用于所有L帧
卷积层没有进行时间建模,顶部的全局时空池化层知识融合了从L帧中独立提取的信息。

3、3R3D:3D卷积

保留了时间信息并通过网络层进行传播
4D,它的大小是Ni × L × Hi × Wi,其中Ni是第i块中使用的滤波器的数量。每个滤波器都是4维的,其大小为Ni−1 × t × d × d,

3、4MCx and rMCx: 2D-3D混合

一种假设:引动建模在早期层特别有用,而在高层的语义抽象中,运动和时间建模是不必要
MC4:表示第四层、第五层是2D(四层以后的均是2D),依次类推得到MC3、2、
另一种假设:时间建模在深层中更加有效,进行反向混合卷积

3、5 R(2+1)D: (2+1)D 卷积

另一种理论:完整的3D卷积可能更加方便地通过2D和1D来近似
与3D相比rR(2+1)D有两个优势:
1、每个块中2D和1D卷积之间的额外ReLU,使网络中的非线性数量增加了一倍,增加了函数的复杂性在相同参数的情况下
2、优化更容易,训练误差更低
在这里插入图片描述

4、实验

数据集:Kinetics、Sports-1M
预训练:UCF101、HMDB51、Kinetics、Sports-1M

4、1实验开始

1、3D ResNets框架:
在这里插入图片描述
2、训练和评估:
所有网络均使用18层,在相同的输入上从头训练他们。视频帧缩放到128171的大小,随机裁剪到112112的窗口上
训练时从时间抖动的视频中随机采样L个连续帧。批量归一化所有卷积层

4、2对比其他时空卷积

在这里插入图片描述
(1、先将图片的准备条件以及干了啥说清楚,虽然图片底下有,但是不妨碍再说一遍
2、一定要将得出的结果进行论述,xxx比xxx的结果好,说明 ,总体突出我创造的这个模型在哪一个方面非常棒)

1、2D ResNet和混合卷积性能差别很大—>运动建模对动作识别很重要
2、R2D在第一残差块之后折叠并消除了时间信息,而f-R2D从各个帧中计算静态图像特征
3、单独的空间和时间卷积中分解3D卷积比联合或通过混合的3D-2D卷积对时空信息建模要好

在这里插入图片描述
(1、将图中的模型进行对比,特别是在同一行或同一列上的
2、当自己模型比较好时,可以提出小问题,用自己的理解进行回答)
在这里插入图片描述

4、3回顾视频级预测的实践

1、Varol等人[37]表明,通过使用长期卷积(LTC)在较长的输入片段(例如,100帧)上训练视频CNN,可以获得精度增益。
**(**从哪里表明—>提出了什么观点—>我来设计实验检验一下我的模型是否也符合这个观点)
(得到的结果—>提出问题—>设计更小的实验进行判定)
在这里插入图片描述
没有分明白帧frame和层clips的区别,在R2D和f-R2D中使用

得到结论:视频级别预测是通过对视频中均匀间隔的10个剪辑获得的剪辑级别预测进行平均来完成的。一个有趣的发现是,尽管当我们添加更多帧时,剪辑精度会继续提高,但视频精度在32帧时达到峰值。
2、由于所有这些模型都有相同数量的参数,因此很自然地会问“是什么导致了视频级别精度的差异?”为了解决这个问题,我们进行了两个实验。
在这里插入图片描述
3、准确的视频级别预测需要多少个剪辑?
在这里插入图片描述

4、4基于34层R(2+1)D网络的动作识别

我们在RGB和光流输入上训练我们的R(2+1)D架构,并通过平均来融合预测分数。使用Farneback的方法[8]来计算光流,因为它的效率很高,效果不是很好。
在这里插入图片描述
在这里插入图片描述

5、总结

实证得到R(2+1)D的效果非常好
希望我们的分析能够激发新的网络设计,利用时空卷积的潜在功效和建模灵活性。
很喜欢这篇文章的结构,特别的清楚,写论文的时候,多模仿一下思路

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值