百度顶会论文复现（3）：视频分类综述

自动驾驶小学生

已于 2022-03-13 22:50:49 修改

阅读量7.1k

点赞数 17

分类专栏：百度顶会论文复现文章标签：百度计算机视觉人工智能

于 2020-08-02 18:42:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cg129054036/article/details/107748313

版权

百度顶会论文复现专栏收录该内容

5 篇文章

订阅专栏

本节课主要是对视频分类的发展进行了介绍，包括任务与背景，分类方法，前沿进展等。课程地址为：https://aistudio.baidu.com/aistudio/course/introduce/1340?directly=1&shared=1。

文章目录

1. 任务与背景

这里首先给出了什么是视频分类的定义：将一段视频分类到预先制定类别集合中的某一个或多个。
在这里插入图片描述
然后给出了视频分类的发展历程：分为前深度学习时代和深度学习时代。

2. 视频分类方法

视频与图像不同，它由空间维度和时间维度组成。包括静态图像特征，运动特征，音频特征，外部特征等。由于其特征之多和复杂，视频处理可以看作是CV皇冠上的明珠。
目前主要的方法有：双流网络，静态图像特征聚合，3D卷积。

在这里插入图片描述

2.1 双流网络方法

借鉴人类大脑处理视觉信息的方式，研究人员设计了全新的网络结构，实现静态图像特征和运动信息统一，互补的提取和分类，主要论文有以下三篇。

`NIPS-2014`	`CVPR-2016`	`ECCV-2016`

2.2 静态图像特征聚合

方法主要是提取视频不同时刻多帧图像的特征，聚合生成视频级特征，进而分类。
在这里插入图片描述
主要代表论文有以下4篇：
首先是用CNN+LSTM提取静态图像特征并构建时序关系，然后进行分类。

`CVPR-2015`	`ICMR-2016`

然后也有学者对视频图像和光流进行特征提取，也有的学者使用Attention进行最后分类：
在这里插入图片描述

2.3 3D卷积方法

3D卷积是从水平、垂直和时序三个方向同时提取视频时空特征，但是计算量太大。
在这里插入图片描述
后来又学者借鉴残差结构，降低了3D卷积的计算复杂度，处理时先在图像空间卷积，再在时间维度卷积。

后来学者又进行了改进，提出了图像+视频联合预训练的方法。

3. 前沿进展

最新的视频处理方法主要有：高效视频网络，运动增强的RGB分类，快慢信息结合网络，光流表示学习，时序金字塔网络。

3.1 高效视频网络

这是本次课程论文复现里的一篇：ECO网络。
在这里插入图片描述

3.2 运动增强的RGB分类

这篇论文也是开创性的，避免了光流的计算。
在这里插入图片描述

在这里插入图片描述

3.3 快慢信息结合网络

这篇论文设计了两条通道，快速与慢速通道，降低了计算量。
在这里插入图片描述

3.4 光流表示学习

这篇论文主要工作是把光流信息用网络学习了出来。
在这里插入图片描述

3.5 时序金字塔网络

这也是本次课程需要复现的论文之一，
在这里插入图片描述

最后是未来展望：
在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。