百度顶会论文复现(3):视频分类综述

本节课主要是对视频分类的发展进行了介绍,包括任务与背景,分类方法,前沿进展等。课程地址为:https://aistudio.baidu.com/aistudio/course/introduce/1340?directly=1&shared=1

1. 任务与背景

这里首先给出了什么是视频分类的定义:将一段视频分类到预先制定类别集合中的某一个或多个。
在这里插入图片描述
然后给出了视频分类的发展历程:分为前深度学习时代深度学习时代
在这里插入图片描述


2. 视频分类方法

视频与图像不同,它由空间维度和时间维度组成。包括静态图像特征,运动特征,音频特征,外部特征等。由于其特征之多和复杂,视频处理可以看作是CV皇冠上的明珠。
目前主要的方法有:双流网络,静态图像特征聚合,3D卷积

在这里插入图片描述

2.1 双流网络方法

借鉴人类大脑处理视觉信息的方式,研究人员设计了全新的网络结构,实现静态图像特征和运动信息统一,互补的提取和分类,主要论文有以下三篇。

NIPS-2014CVPR-2016ECCV-2016
在这里插入图片描述在这里插入图片描述在这里插入图片描述

2.2 静态图像特征聚合

方法主要是提取视频不同时刻多帧图像的特征,聚合生成视频级特征,进而分类。
在这里插入图片描述
主要代表论文有以下4篇:
首先是用CNN+LSTM提取静态图像特征并构建时序关系,然后进行分类。

CVPR-2015ICMR-2016
在这里插入图片描述在这里插入图片描述

然后也有学者对视频图像和光流进行特征提取,也有的学者使用Attention进行最后分类:
在这里插入图片描述
在这里插入图片描述


2.3 3D卷积方法

3D卷积是从水平、垂直和时序三个方向同时提取视频时空特征,但是计算量太大。
在这里插入图片描述
后来又学者借鉴残差结构,降低了3D卷积的计算复杂度,处理时先在图像空间卷积,再在时间维度卷积。
在这里插入图片描述
后来学者又进行了改进,提出了图像+视频联合预训练的方法。
在这里插入图片描述


3. 前沿进展

最新的视频处理方法主要有:高效视频网络,运动增强的RGB分类,快慢信息结合网络,光流表示学习,时序金字塔网络。

3.1 高效视频网络

这是本次课程论文复现里的一篇:ECO网络。
在这里插入图片描述
在这里插入图片描述


3.2 运动增强的RGB分类

这篇论文也是开创性的,避免了光流的计算。
在这里插入图片描述

在这里插入图片描述


3.3 快慢信息结合网络

这篇论文设计了两条通道,快速与慢速通道,降低了计算量。
在这里插入图片描述


3.4 光流表示学习

这篇论文主要工作是把光流信息用网络学习了出来。
在这里插入图片描述


3.5 时序金字塔网络

这也是本次课程需要复现的论文之一,
在这里插入图片描述

最后是未来展望:
在这里插入图片描述

### 如何复现深度学习论文 #### 选择合适的论文 为了成功复现出深度学习论文中的成果,挑选具有清晰描述和技术细节的论文至关重要。优先考虑那些提供了开源代码或详尽实现说明的文章[^2]。 #### 获取必要的资源和支持环境 许多尖会议论文背后都有大量的计算资源支持,这使得一些实验难以被完全复制。然而,随着云计算服务的发展,如Google Colab、AWS等平台可以提供足够的GPU/TPU来满足大多数需求。此外,部分研究机构也会公开其使用的框架版本和依赖项列表,有助于构建一致性的开发环境[^3]。 #### 阅读理解与笔记整理 深入研读选定的论文全文,特别是方法论部分,并做好详细的笔记记录下每一个步骤的具体操作方式及其背后的原理。对于不熟悉的术语或者概念可以通过查阅其他文献资料加深了解。同时注意作者提到的数据集获取途径及预处理手段[^1]。 #### 实验重现过程 基于上述准备工作,在本地环境中搭建相同的软件栈之后就可以着手尝试运行官方给出的baseline model了。如果遇到性能差异较大的情况,则需仔细对比配置参数设置是否一致;另外还需关注随机种子初始化等因素的影响以减少不确定性带来的偏差。 #### 结果验证分析 当能够稳定获得接近原作报告的结果后,进一步开展超参调优工作试图超越已有水平。在此过程中要保持严谨的态度对待每一次改动所带来的变化趋势观察并及时调整方向直至达到满意的效果为止。 ```python import torch from torchvision import datasets, transforms transform = transforms.Compose([transforms.ToTensor()]) train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform) def load_data(batch_size): """加载MNIST数据集""" data_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True) return data_loader ``` #### 文献回顾与其他案例借鉴 除了专注于手头的任务外,定期浏览最新的研究成果同样重要。因为新的发现往往能带来启发式的思路改进现有方案或是解决当前面临的难题。加入特定主题的兴趣小组参与讨论交流也是不错的选择之一。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值