6、利用三维卷积网络学习时空特征---学习笔记

Cherish450

已于 2023-11-03 16:56:08 修改

阅读量301

点赞数

分类专栏：论文理解（视频理解）文章标签：学习笔记

于 2023-11-03 16:04:56 首次发布

本文链接：https://blog.csdn.net/qq_53453329/article/details/134186493

版权

论文理解（视频理解）专栏收录该内容

6 篇文章 0 订阅

订阅专栏

0、摘要

一种简单而有效的时空特征学习方法，使用在大规模监督视频数据集上训练的深度3维卷积网络(3D ConvNet)。
发现有三个方面:
1)与2D ConvNet 相比，3D ConvNet更适合时空特征学习;
2)所有层均具有小型333卷积核的同构架构是3DConvNet 性能最佳的架构之一;
3)我们学习的特征,即C3D(卷积3D)，具有简单的线性分类器，
在4个不同的基准上优于最先进的方法，并且在其他2个基准上与当前最佳方法相当。
此外，特征很紧凑:在只有10维的UCF101 数据集上实现了52.8% 的准确率，并且由于ConvNet的快速推理，计算效率也非常高。
最后，它们在概念上非常简单并且易于训练和使用。

1、简介

1、有效的视频描述符有四个属性:

(i)它需要是通用的，以便它可以很好地表示不同类型的视频，同时具有区分性。
例如，网络视频可以是风景、自然场景、体育、电视剧、电影、宠物、食物等;
(ii)描述符需要紧凑:当我们处理数百万个视频时，紧凑的描述符有助于处理、存储搜索和检索任务更具可扩展性;
(iii)计算需要高效,因为现实世界系统中每分钟预计会处理数千个视频;
(iv)必须易于实施，简单
一个好的描述符即使使用简单的模型(例如线性分类器）也应该可以很好地工作，而不是使用复杂的特征编码方法和分类器。

2、3D ConvNet介绍

在本文中，我们建议使用深度3D ConvNet 来学习时空特征。我们凭经验表明，使用简单的线性分类器学习到的特征可以在各种视频分析任各中产生良好的性能。
据我们所知，这项工作在大规模监督训练数据集和现代深度架构的背景下利用3D ConvNet，以在不同类型的视频分析任务上实现最佳性能。这些3D ConvNet的功能封装了与视频中的对象、场景和动作相关的信息，使其可用于各种任务，而无需为每个任务微调模型。

3、贡献：

（与摘要中的三个发现相对应）
1、我们通过实验证明3D卷积深度网络是很好的特征学习机器,可以同时对外观和运动进行建模。
2、我们凭经验发现,所有层的333卷积核在有限的探索架构中效果最好。
3、提出的具有简单线性模型的特征在4个不同的任务和6个不同的基准上优于或接近当前的最佳方法（见表1)。它们结构紧凑且计算效率高。
在这里插入图片描述

2、相关工作

完全是前人干了什么事

3、使用3D ConvNet学习特征

3、1卷积和池化

2D ConvNet 在每次卷积运算后都会丢失输入信号的时间信息。只有3D卷积保留了输入信号的时间信息，从而产生输出体积。同样的现象也适用于2D和3D轮询。
在这里插入图片描述
（a）在图像上用2D提取信息，只能得到h，w
（b）在视频上用2D提取信息，也得不到时空信息
（c）只有在视频上用3D提取信息，才能即得到时间，又得到空间信息
只有Large-scale Video Classification with Convolutional Neural Networks中的SlowFusion模型在其前3个卷积层中使用3D卷积和平均池化。我们相信这是它研究的所有网络中表现最好的关键原因。然而，在第三个卷积层之后它仍然丢失了所有时间信息。
在这里插入图片描述
可以在论文中融入自己对别的论文的理解，与论文相关的，均为论述时间信息如何才能更好的保存

符号表示

视频：clhw：c：通道数，l：帧数
卷积核：dkk：d：内核时间深度，kk：空间大小

通用网络设置

数据集UCF101，101种分类
视频帧大小：128171：UCF101分辨率的一半
视频分为16帧==>输入：316128171
数据增强：316112112随机抖动和翻转
网络：
该网络有5个卷积层和5个池化层(每个卷积层后面紧跟着一个池化层）、2个全连接层和一个用于预测动作标签的softmax损失层。1到55个卷积层的滤波器数量分别为64、128、256、256、256。所有的卷积核都有一个d大小。
应用适当的填充和步长为1，所有卷积输入和输出都没有变化，池化都是最大池化。
第一层内核：122：不过早合并时间信号，满足16帧的剪辑程度
后：222
两个全连接层有2048个输出
使用30个剪辑的小批量从头训练，学习率0.003
**(我认为这里用的卷积核大小：33)**

不同的网络架构

在这里插入图片描述
1、,we experiment with 4 networks having kernel temporal depth of d equal to 1, 3, 5, and 7.==>133
2、increasing: 3-3-5-5-7 decreasing: 7-5-5-3-3

3、2探索内核时间深度

==>无论如何对比，333都是最优的

3、3时空特征学习

网络架构

在这里插入图片描述

训练

在Sports-1M上进行，在每个视频中随机提取5个2s的剪辑，帧调整为128171
为了增强数据实现空间和时间的抖动：随机裁剪为16112*112，并以50%的概率进行翻转
小批量30为例，学习率为0.003

训练结果

在这里插入图片描述
每个剪辑仅使用中心裁剪，通过网络进行剪辑预测，对视频中随机提取10个剪辑进行平均剪辑预测。
DeepVideo和C3D使用短剪辑：
29使用长剪辑：每个剪辑4种裁剪和每个视频80种裁剪
（想表达：C3D 功能之上应用卷积池或更复杂的聚合方案[29]，可以提高视频命中性能）

C3D视频描述符

C3D可以用作其他视频的特征提取器

C3D学什么?我们使用[46]中解释的反卷积方法来了解C3D内部正在学习什么。我们观察到，C3D首先关注前几帧中的外观，并跟踪后续帧中的显着运动。因此，C3D与标准2D ConvNet的不同之处在于它选择性地关注运动和外观。

4、动作识别

数据集、分类模型、基线

在UCF101上，评估C3D的特征。
提取特征：C3D与之前最好的手工特征、流行的深度图像特征进行比较
（将自己所做的模型与当前最好的模型作比较，证明我做的东西效果好，有意义）

结果

中间仅使用RGB帧作为输入，完全符合当下流行的end-to-end
C3D和iDT组合相关最好，两者可以很好的互补，这样才能优于双流网络
1、C3D可以很好地抓住外观和运动信息以及高级抽象、语义信息
2、iDT是基于光流跟踪和低级梯度直方图的手工特征

C3D特征的紧凑性：

使用t-SNE在UCF101数据集上对ImageNet和C3D进行特征嵌入可视化。C3D特征在语义上是可分离的，每个剪辑都可视化为一个点，相同颜色的点代表同一种动作。
用PCA将特征投影进行降维，用SVM对特征进行分类。

5、动作相似度标签

任务是预测给定的一对视频是否属于相同或不同的动作。与动作识别不同，侧重于预测动作相似性而不是实际动作的标签
ASLAN数据集中的一部分
使用规定的10倍交叉验证和数据集提供的分割
将视频分割成16帧，其中8帧重合。将视频剪辑后提取C3D特征。

结果

在这里插入图片描述

6、场景和物体识别

动态场景识别，使用YUPENN（14个场景420个视频）+Maryland（13个场景，130个视频）

结果

C3D简单且效果还不错

7、运行时分析

C3D+iDT==>excellent

8、结论

进行了一像系统研究，找到了3DConvNet的最佳时间内核长度
1、证明了C3D可以同时对外观和云兄信息进行建模，
2、证明了在各类视频分析任务上均优于2DConvNet===>(4,5,6就是分析了不同的视频任务下，C3D的效率怎样)
3、C3D+SVM在不同视频分析基准上优于或接近当前的最佳方法
4、最重要的一点，C3D简单，高效，紧凑

这篇文章的思路还是没太明白，有空翻回来再读读
感觉理解不到为，总体就是C3D在不同场景下的结果都较好