视频理解论文串讲——学习笔记

Wei *

已于 2023-06-25 21:18:08 修改

阅读量331

点赞数 1

分类专栏：计算机视觉文章标签：音视频深度学习视频理解双流网络 3D网络

于 2023-03-08 15:48:31 首次发布

本文链接：https://blog.csdn.net/qq_43406895/article/details/129382483

版权

计算机视觉专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文章目录

DeepVideo
Two-Stream
C3D
Timesformer

本文是对视频理解领域论文串讲的笔记记录。

在这里插入图片描述

DeepVideo

Andrej Karpathy, George Toderici, Sanketh Shetty, Thomas Leung, Rahul Sukthankar, & Li Fei-Fei (2014). Large-Scale Video Classification with Convolutional Neural Networks Computer Vision and Pattern Recognition.
在这里插入图片描述
这四种方法中，最后一种方法最好，然而，还是没有之前手工提取特征的方法效果好。
因此，作者尝试寻找其它的方法：（多分辨率卷积神经网络）

使用这样的操作，确实变好了一些，但提升相对较小。
在这里插入图片描述

当时最好的手工特征在 UCF-101 上的 ac 已经有 87% 了。所以当时引起了大家的思考，为什么深度学习在视频理解领域不能像图像领域那样好。

Two-Stream

Karen Simonyan, & Andrew Zisserman (2014). Two-Stream Convolutional Networks for Action Recognition in Videos arXiv: Computer Vision and Pattern Recognition.
在这里插入图片描述

上面输入 RGB 图像；
下面输入光流图像。
最后softmax后简单加权平均。

14-17年在双流网络上的发展：
14-17年双流网络上的发展

Beyond-short-Smippets

Joe Yue-Hei Ng, Matthew Hausknecht, Sudheendra Vijayanarasimhan, Oriol Vinyals, Rajat Monga, & George Toderici (2015). Beyond Short Snippets: Deep Networks for Video Classification arXiv: Computer Vision and Pattern Recognition.

Convolutional Fusion

Christoph Feichtenhofer, Axel Pinz, & Andrew Zisserman (2016). Convolutional Two-Stream Network Fusion for Video Action Recognition arXiv: Computer Vision and Pattern Recognition.

在这里插入图片描述

1.做了大量的消融实验，可以让大家少走很多弯路。
2.尝试了3D Conv和3D Pooling，变相地推动了 I3D 的出现。

TSN

Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, & Luc Van Gool (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
在这里插入图片描述

C3D

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, & Manohar Paluri (2014). Learning Spatiotemporal Features with 3D Convolutional Networks Cornell University - arXiv.

性能表现：
在这里插入图片描述

网络结构：（很像 vgg）
在这里插入图片描述
16：16个视频帧。
c3d特征：fc6抽出来的特征。

主要还是可以直接拿C3D来抽取特征。（因为别人训练不动）

I3D

Joao Carreira, & Andrew Zisserman (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Computer Vision and Pattern Recognition.

降低了网络训练的难度
提出了一个很好的数据集

把一个2D的网络扩充成一个3D的网络。（可以很好得使用2d网络在imagenet上预训练好的参数）
证明了从2D网络到3D网络的有效性，比如后续的工作：

在这里插入图片描述
把UCF101和HMDB-51数据集刷爆了，以后就是Kinetics数据集了。

Non-local

Xiaolong Wang, Ross Girshick, Abhinav Gupta, & Kaiming He (2017). Non-local Neural Networks arXiv: Computer Vision and Pattern Recognition.

一个即插即用的模块，可以在很多任务上取得好的结果。

在这里插入图片描述

R（2+1）D

Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, & Manohar Paluri (2017). A Closer Look at Spatiotemporal Convolutions for Action Recognition Cornell University - arXiv.

一篇非常实验性的论文。
在这里插入图片描述

R(2+1)D这种结构的效果最好。
在这里插入图片描述
R(2+1)D的结构：

SlowFast

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, & Kaiming He (2018). SlowFast Networks for Video Recognition International Conference on Computer Vision.

在这里插入图片描述
慢分支：小输入，大网络
快分支：大输入，小网络

慢分支是个标准的 i3d 网络。

在时间维度上一直没有做下采样。
在这里插入图片描述

Timesformer

Gedas Bertasius, Heng Wang, & Lorenzo Torresani (2021). Is Space-Time Attention All You Need for Video Understanding?. arXiv: Computer Vision and Pattern Recognition.

通过大量实验，探索了如果将 vision transformer 从图像领域迁移到视频领域中。
在这里插入图片描述
按照R(2+1)D的思路，设计了Divided Space-Time Attention。
Sparse Local Global Attentiono(L+G)，类似Swim Transformer

下图是上面5种方法的可视化展示：
在这里插入图片描述

性能表现：
在这里插入图片描述

其它相关工作：
Xinyu Li, Yanyi Zhang, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, & Joseph Tighe (2021). VidTr: Video Transformer Without Convolutions Cornell University - arXiv.

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, & Christoph Feichtenhofer (2021). Multiscale Vision Transformers Cornell University - arXiv.

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, & Cordelia Schmid (2021). ViViT: A Video Vision Transformer arXiv: Computer Vision and Pattern Recognition.

脉络总结：

在这里插入图片描述