2015-【精读】Fusing Multi-Stream Deep Networks for Video Classification

最新推荐文章于 2023-10-17 21:10:15 发布

半分热度

最新推荐文章于 2023-10-17 21:10:15 发布

阅读量444

点赞数

分类专栏：视频分类文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_41956697/article/details/111947582

版权

Fusing Multi-Stream Deep Networks for Video Classification 2015

arxiv: http://arxiv.org/abs/1509.06086

本文利用多模态线索进行视频分类，结合了音频信息进行建模，在UCF-101数据集上最后有音频与无音频信息实验结果相差0.4%。使用了三个卷积神经网络分别对空间、短期运动和音频线索进行建模，在卷积神经网络的空间和短期运动特征上进一步采用LSTM进行长期时间建模。然后使用提出的融合方法，自适应地学习每个类别的融合权重。
在这里插入图片描述

本文贡献：
1.介绍了一个多流框架，该框架整合了视频中的空间，短期运动，长期时间和听觉线索。我们证明了多流网络能够消化互补信息，从而显著提高性能。
2.提出了一种简单有效的融合方法来组合各个网络的输出。该方法针对每个类别自适应地学习融合权重，并且能够在权重学习过程中利用类别关系。我们从经验上证明，类关系正则化器非常有效。

摘要:

本文研究了深度网络架构来解决视频分类问题。提出了一种多流框架来充分利用视频中丰富的多模式信息。具体来说，首先训练三个卷积神经网络分别对空间、短期运动和音频线索进行建模。然后采用长短期记忆网络来探索长期时间动态。利用各个流的输出，我们提出了一种简单有效的融合方法来生成最终预测，其中针对每个类别自适应地学习最佳融合权重，并通过自动估计的类别关系对学习过程进行规范化。我们的贡献是双重的。首先，提出的多留框架能够利用比以前尝试的功能更全面的多模式功能。其次，我们证明了使用类关系作为正则化器的自适应融合方法优于以“自由”方式估算权重的传统替代方法。在两个流行的基准上我们的框架所产生的结果要比最新技术要好得多，UCF-101 的92.2%（不使用音频）和CCV的84.9%。

1.介绍

训练了三个ConvNet，分别对静态空间信息，短期运动和听觉线索进行建模。运动流是根据短时间窗口上的堆叠光流计算的，因此只能捕获短期运动。为了对长期的时间线索进行建模，我们对ConvNets提取的帧级空间和运动特征采用了递归神经网络（RNN）模型，即长短期记忆（LSTM）。LSTM将历史信息编码在用非线性门调节的存储单元中，以发现时间依赖性。为了合并来自不同网络的输出，我们开发了一种简单而有效的融合方法来自适应地学习每个类别的最佳融合权重。我们建议使用估计的类关系来规范权重学习过程，而不是用其他标签。这有助于将类上下文注入最终的预测中，从而可以显著改善结果。

3.方法

3.1多流卷积网

视频通常会承载大量的多模式信息，通常会显示某些场景下物体在一段时间内的运动和交互作用，伴随着人的声音或背景声音。因此，视频数据可以自然地分解为空间，运动和音频流。由单个帧组成的空间流描述了静态外观信息，而运动流捕获了由连续帧演示的对象或场景运动。此外，音频流中的声音提供了关键的线索，这些线索通常是视觉对应的补充。受最近的双流方法激励，我们训练了三个ConvNet以利用多模式信息。
简而言之，空间ConvNet使用原始帧作为输入，我们在图像识别任务中采用了具有卓越性能的深度架构。它可以有效地识别具有清晰可辨的外观特征的某些视频语义。对于运动流，我们根据训练在堆叠光流上运行的ConvNet模型。更具体地说，通过以水平和垂直方式计算位移矢量，光流对每个相对帧之间的对象的微妙运动模式进行编码，这些运动模式可以转换为两个流图像作为运动流ConvNet的输入。先前的研究表明，由于包含了相对更紧凑的运动，因此可以通过在短时间窗口内堆叠连续的光流图像来获得进一步的改进。为了利用音频信息，我们首先应用短时傅立叶变换将一维音轨转换为二维图像（声谱图），其水平轴和垂直轴分别为时间标度和频率标度。然后，使用ConvNet对频谱图进行操作。ConvNet非常适合基于频谱图的音频信号建模，并具有权重共享和最大池化机制，以努力实现小频移的不变性。

3.2长期时间建模

由于运动流ConvNet仅捕获短期运动模式，因此我们进一步采用LSTM对视频通道中的长期时间线索进行建模。LSTM是一种流行的RNN模型，该模型将存储单元与多个门结合在一起

最低0.47元/天解锁文章

半分热度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2015-【精读】Fusing Multi-Stream Deep Networks for Video Classification

本文利用多模态线索进行视频分类，结合了音频信息进行建模，在UCF-101数据集上最后有音频与无音频信息实验结果相差0.4%。使用了三个卷积神经网络分别对空间、短期运动和音频线索进行建模，在卷积神经网络的空间和短期运动特征上进一步采用LSTM进行长期时间建模。然后使用提出的融合方法，自适应地学习每个类别的融合权重
复制链接

扫一扫

专栏目录