【2017】Learnable pooling with Context Gating for videoclassification借助Context Gating进行可学习的池化以进行视频分类

最新推荐文章于 2023-11-11 16:06:51 发布

半分热度

最新推荐文章于 2023-11-11 16:06:51 发布

阅读量427

点赞数

分类专栏：视频分类文章标签：计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_41956697/article/details/113534267

版权

intro: CVPR17 Youtube 8M workshop. Kaggle 1st place
arxiv: https://arxiv.org/abs/1706.06905
github: https://github.com/antoine77340/LOUPE

一般的视频理解方法通常对一段视频的间隔帧提取特征，取它们的极大值或均值来代表整段视频的特征，这是一种很简单的视频表示方法，但是容易陷入局部最优解，论文为此探索了一种可学习的池化技巧（learnable pooling techniques），它将多个算法（比如 Soft Bag-of-words, Fisher Vectors, NetVLAD, GRU and LSTM）相结合，共同组成视频特征。论文还介绍了一种非线性网络单元Context Gating，用于对特征相关性建模。

论文通过实验证明了多方法结合的learnable pooling techniques与Context Gating的有效性。
贡献：
1、提出了一种多方法组合共同策略的learnable pooling方法。

2、提出了一种非线性网络单元-Context Gating（CG），CG主要目的是为了捕捉分散特征的关联从而输出更精确的整体结果。

在这里插入图片描述
如图所示，整个算法由三部分模块组成，首先，特征提取模块从视频流中按一定间隔提取音频特征和图像特征；然后池化模块组合优化这些特征；最后分类模块对整体特征分类，输出labels。

1.介绍

对于包括监视，个人协助，智能家居，自动驾驶，素材搜索和体育视频分析在内的众多应用，理解和识别视频内容是一项重大挑战。在这项工作中，我们解决了互联网上用户生成的视频的多标签视频分类问题。对此类数据的分析涉及几个挑战。Internet视频在内容和质量方面具有很大的可变性（请参见图1）。此外，用户生成的标签通常不完整，模棱两可，并且可能包含错误。
当前的视频分析方法通常通过从连续帧中提取特征来表示视频，然后随着时间推移进行特征聚合。特征提取的示例方法包括在静态图像[1]，[2]，[3]，[4]上预先训练的深度卷积神经网络（CNN）。运动和外观的表示可以从针对视频帧和短视频剪辑[5]，[6]以及手工制作的视频功能[7]，[8]，[9]进行预训练的CNN中获得。其他更高级的模型均采用分层时空卷积架构[5]，[10]，[11]，[12]，[13]，[14]。
时态特征聚合的常用方法包括简单的平均或最大池化以及更复杂的池化技术，例如VLAD [15]或更近期的递归模型（LSTM [16]和GRU [17]）。但是，这些技术可能不是最佳的。实际上，简单的技术（例如平均池或最大池）对于长序列可能会变得不准确。递归模型经常用于可变长度序列的时间聚合[18]，[19]，并且通常优于简单的聚合方法，但是，它们的训练仍然很麻烦。正如我们在第5节中所展示的，反复训练模型需要相对大量的数据。此外，对于在GPU训练期间处理长视频序列而言，递归模型可能不是最佳选择。目前尚不清楚当前的顺序聚合模型是否适合视频表示。确实，我们使用时间顺序和随机顺序视频帧训练递归模型的实验显示了相似的结果。
另一个研究方向是利用基于聚类方法的传统无序聚合技术，如视觉词袋[20]，[21]，局部聚合描述符向量（VLAD）[15]或Fisher向量[22]。最近显示，将VLAD集成为神经网络中的可微模块可以显着改善位置检索任务的汇总表示[23]。这促使我们为视频表示和分类的任务而集成和增强这种基于聚类的聚合技术。
我们在包含约800万个视频和4716个唯一标签的大规模多模式Youtube-8M V2数据集上评估了我们的方法。我们使用数据集提供的预提取的视觉和音频功能[19]，并演示了通过上下文门控以及可学习的池组合获得的改进。在Youtube-8M大规模视频理解挑战1中，我们的方法在650多个团队中获得了最佳性能。与常见的递归模型相比，我们的模型训练速度更快，所需的训练数据更少。图1说明了我们方法的一些定性结果。

2.相关工作

其他常用的方法包括视觉词袋[20]，[21]，局部聚集描述符向量（VLAD）[15]或Fisher向量[22]编码，他们是端到端可训练无序聚合。LSTM和GRU才是有序聚合。
我们的工作旨在填补这一空白，并设计一种将非时间聚合（VLAD、Fishe、词袋）与门控机制相结合的视频分类架构

最低0.47元/天解锁文章

半分热度

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【2017】Learnable pooling with Context Gating for videoclassification借助Context Gating进行可学习的池化以进行视频分类

intro: CVPR17 Youtube 8M workshop. Kaggle 1st placearxiv: https://arxiv.org/abs/1706.06905github: https://github.com/antoine77340/LOUPE摘要当前的视频分析方法通常使用预训练的卷积神经网络（CNN）提取帧级特征。然后，例如通过简单的时间平均或更复杂的递归神经网络（例如长短期记忆（LSTM）或门控递归单元（GRU））随时间聚合此类特征。在这项工作中，我们修改了现有的视
复制链接

扫一扫