文献阅读：Long-Term Temporal Convolutions（LTC）for Action Recognition

WXiujie123456

已于 2022-03-31 19:58:55 修改

阅读量1.2k

点赞数

分类专栏：深度学习论文阅读文章标签：深度学习 python 神经网络 cnn

于 2022-03-31 09:45:07 首次发布

本文链接：https://blog.csdn.net/jennifer_love_frank/article/details/123862685

版权

深度学习论文阅读专栏收录该内容

23 篇文章 11 订阅

订阅专栏

文献阅读：Long-Term Temporal Convolutions（LTC）for Action Recognition

IEEE Transactions on Pattern Analysis and Machine Intelligence 2018

task

动作识别，Action recognition, video analysis, representation learning, spatio-temporal convolutions, neural networks

提出问题：

当前用于动作识别的CNN方法通常扩展了静态图像的CNN架构，并学习1到16帧的短视频间隔的动作表示（C3D）。然而，典型的人类动作（例如握手和饮酒）以及重复性动作（例如步行和游泳）通常会持续几秒钟并跨越数十或数百个视频帧。一些动作通常包含具有特定空间和长期时间结构的特征模式。
本作者使用具有长期时间卷积 (LTC) 的神经网络来学习视频表示。证明了增加时间范围的LTC-CNN模型提高了动作识别的准确性。还研究了不同低级表示的影响，例如视频像素的原始值和光流矢量场，并证明了高质量光流估计对于学习准确动作模型的重要性。

阅读记录

在这里插入图片描述
文章认为不同种类的行为具有不同的时间和空间pattern，有些行为可能需要长时间的行为动态才能辨别，所以以前的将所有的视频裁剪成很多短时的视频段（16帧）并不是一种很好的方法。从而本文探索了3D卷积网络输入视频的时长对识别效果的影响，提出了 LTC 3D网络结构
在这里插入图片描述
和C3D很相似，网络含有5个3D卷积层，每个卷积层分别包含64，128，256，256，256个卷积核，最后包含3层全连接层，所有3D卷积核的大小为3x3x3，每一层卷积层都跟着relu激活和最大池化层，池化层的大小除了第一层为2x2x1，其余层大小都为为2x2x2，前两层全连接层后都跟着dropout。
对于16帧网络，我们从空间分辨率为171*128像素的视频中裁剪尺寸为112*112*16的输入小块。我们选择这个基线架构是为了直接与C3D进行比较。对于60帧网络，我们降低了空间分辨率以保持网络复杂性，并使用从89*67空间分辨率的视频中随机裁剪的58*58*60大小的输入块。
如图所示，我们的60f网络的时间分辨率分别对应于5个卷积层的每一个的60、30、15、7和3帧。相比之下，16f网络的时间分辨率更大幅度地降低到每个卷积层16、8、4、2和1帧（相差60/16倍）。我们认为，在更高的卷积层中保持时间分辨率应该能够学习更复杂的时间模式。

在这里插入图片描述
使用视频帧的原始RGB值作为输入。其中MPEG计算速度比较快，但是这种光流的空间分辨率不高。Farbeback的计算速度也挺块，但是噪声也比较大。Brox光流是目前表现最为准确的一种光流。
右边的表格显示了UCF101(拆分1)中不同输入的动作识别准确率。通过60f网络和从零开始的训练获得了结果
可以看到光流输入中Brox光流的效果最好，准确率最高，所以高质量的光流作为输入，对最终的识别率的提高还是很大的。而且所有光流输入的结果都大于RGB输入。
在这里插入图片描述
网络以60帧视频体积为输入，从头开始训练。我们首先观察到，即使是低质量的MPEG流也优于RGB。光流质量的提高导致了进一步的改进。使用Brox流可以使性能提高近20%。这表明，与原始像素值相比，动作识别更容易从动作中学习。
可以看到无论是RGB输入还是光流输入，60帧输入的效果都更好，文章首先验证了自己的猜想：增加输入视频的时长可以有效地提高行为识别的准确率。

在这里插入图片描述
表1展示了在用有限的数据量训练大型CNN时，数据增强的贡献。我们的基线使用75%重叠的滑动窗夹，在训练过程中dropout设为0.5。随机剪切的增益率为3.1%，多尺度剪切的增益率为1.6%，dropout-ratio较高的增益率为2%。当将数据增强和更高的dropout结合在一起时，UCF101 split 1上的视频分类获得了4%的增益。
在这里插入图片描述
表2比较了16f和60f网络在RGB和流输入以及应用在UCF101时不同的数据增强和dropout ratios的性能。我们观察到，在所有测试设置下，60f网络的长期时间卷积都得到了一致和显著的改善，当以剪辑和视频准确性衡量时。我们的60f架构显著改善了RGB和基于流的网络。正如预期的那样，由于视频评估汇总了整个视频的信息，因此对剪辑的改进更为突出。
我们对HMDB51的拆分重复了类似的实验，并在表3中报告了结果。与UCF101类似，基于流的网络具有长期的时间卷积，在剪辑和视频准确性方面显著改善了16f网络。
为了丰富实验结论，文章又做了不同输入时间长度 {20，40，60，80，100}和不同输入空间分辨率 {58x58，71x71} 的实验。
其中 H 表示高分辨率，L 表示低分辨率，可以看到，对于不同的空间分辨率，在时间长度较短的输入中，视频帧的空间分辨率越高，收益越大，但是随着输入视频帧长度的增长，这种收益变小了。文章认为是随着输入时间长度的增加，网络的参数量越来越多，所以两种分辨率都过拟合了。对于不同的时间长度输入，由上图可以看出，不论是RGB输入还是光流输入，不论是clip的准确率还是video的准确率，都是随着输入视频的长度的增加是逐渐提高的。
前面可以看到，clip或者video的平均识别率是随着输入时长的增加而增长的，那么具体到每一类行为，其准确率随着输入视频时长的增长是怎么变化的呢？文章同时挑选了几种典型行为的结果。
不存在随着视频帧长度增加而准确率单调降低的行为，但是存在先增加后减少的行为，文章认为是因为该行为的视频长度太短（只有90帧），所以在裁剪输入的时候需要首先将原视频循环到足够的长度，使行为失去了连贯性。所以对于不同类别的行为，有适合它的输入时长。

在这里插入图片描述
对于长时输入的效果的提升，文章认为 LTC 可以捕获不同长时行为中可分辨的行为，例如体操和标枪，都含有跑步，区分的动作在最后，所以 LTC 可以很轻松地辨别这些行为。体操和标枪的行为示意图如下图所示：
可以看到在前16帧中，两种行为都是助跑，不容易区分，而到第60帧时，我们就很容易区分两种行为了
在这里插入图片描述

我们观察到LTC在两个数据集上都优于2D卷积。此外，LTC Flow优于LTCRGB，尽管没有预训练。在UCF101和HMDB51数据集上，使用LTC Flow+RGB进行平均融合的结果显著优于双流平均融合基线[6]，分别高出4.8和6.8%。[6]中的SVM融合基线仍然明显低于LTC Flow+RGB。总的来说，我们最好的网络LTC Flow +RGB与IDT方法的结合，在UCF101(92.7%)和HMDB51(67.2%)数据集上提供了最好的结果。值得注意的是，除了[25]研究结合RGB和流的最佳方法外，这两个结果都优于先前在这些数据集上发表的结果，因此是我们方法的补充。
密集采样DT，DT方法通过网格划分的方式在图片的多个尺度上分别密集采样特征点。提升的密集轨迹算法（IDT算法），主要改进在于对光流图像的优化，特征正则化方式的改进以及特征编码方式的改进。
FV，Fisher Vector 特征编码，本质上是用似然函数的梯度vector来表达一幅图像，这个梯度向量的物理意义就是数据拟合中对参数调优的过程。

说明

以上内容均为作者本人平时阅读并且汇报使用，内容整理全凭个人理解，如有侵权，请联系我；内容如有错误，欢迎留言交流。转载请注明出处，并附有原文链接，谢谢！

更多论文分享，请参考：深度学习相关阅读论文汇总（持续更新）

WXiujie123456

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
文献阅读：Long-Term Temporal Convolutions（LTC）for Action Recognition

本作者使用具有长期时间卷积 (LTC) 的神经网络来学习视频表示。证明了增加时间范围的LTC-CNN模型提高了动作识别的准确性。还研究了不同低级表示的影响，例如视频像素的原始值和光流矢量场，并证明了高质量光流估计对于学习准确动作模型的重要性。
复制链接

扫一扫

专栏目录