2017-用于视频理解的分层深度递归体系结构Hierarchical Deep Recurrent Architecture for Video Understanding

本文介绍了用于视频理解的分层深度递归架构,解决帧级特征建模和视频级分类问题。通过帧级的BiLSTM模型(包括MaxPooling、Random和Hierarchical BiLSTM)和视频级的专家分层混合(HMoE)及分类器链(CC),提高模型性能。最终,通过模型合奏进一步提升分类准确率。
摘要由CSDN通过智能技术生成

Hierarchical Deep Recurrent Architecture for Video Understanding
arxiv: https://arxiv.org/abs/1707.03296

单注意模型可以去掉无用帧,但是他忽略了预测不同标签时要注意视频不同的帧,不同的标签应该具有不同的注意查询向量,而不是相同的单个向量。因此作者根据4000多标签总结了25个垂直分类,也有了25个注意向量。
单注意BiLSTM模型的基础上三种模型:MaxPooling、Random和Hierarchical。这些方法都是为了解决视频中帧数过多导致梯度消失和递归神经网络训练困难的问题。
max-pooling:作者通过合并相邻帧的特征来减少帧数过多的问题,在两个BiLSTM层之间插入max-pooling层。
随机BiLSTM:每五个相邻帧中随机抽取一帧,来减少帧数量,并且还可以通过增加LSTM层提高性能。
Hierarchical BiLSTM:思想与最大池模型相似,唯一区别为没有使用maxpooling操作,而是使用较小的BiLSTM来合并邻域特征。
摘要
本文1介绍了我们为Youtube-8M视频理解挑战赛开发的系统,其中将大规模基准数据集[1]用于多标签视频分类。 所提出的框架包含分层的深层架构,包括帧级序列建模部分和视频级分类部分。 在帧级序列建模部分,我们探讨了一组方法,包括Pooling-LSTM(PLSTM),Hierarchical-LSTM(HLSTM),Random-LSTM(RLSTM),以解决视频中大量帧的问题。 。 我们还介绍了两种注意力集中方法,即单注意力集中(ATT)和多重注意力集中(Multi-ATT),以便我们可以更加关注视频中的信息帧,而忽略无用的帧。 在视频级分类部分中,提出了两种提高分类性能的方法,即专家分层结构(HMoE)和分类器链(CC)。 我们的最终提交是一个由18个子模型组成的合奏。 就官方评估指标全球平均精度(GAP)为20而言,我们的最佳提交在测试数据集的50%上达到0.84346,在测试数据50%的私有上达到0.84333。

1.介绍

视频理解是计算机视觉领域的核心任务之一。 YouTube-8M数据集[1]是一个大规模的视频理解数据集,包含超过700万个YouTube视频,并用来自25个垂直类别的4,716个标签进行了注释。 每个视频的标签平均数量为3.4。对于每个视频,参与者提交一份预测标签及其对应的置信度得分的列表,评估服务器将为每个视频选择具有最高20置信度得分的预测标签 视频,然后将每个预测和置信度得分视为一长串的全局预测中的单个数据点,以计算所有预测和所有视频的平均精度。 详细来说,评估指标(GAP)的计算公式为:在这里插入图片描述
在本报告的其余部分,我们总结了我们在比赛中的详细解决方法。 首先介绍和评估我们的基准模型。 然后介绍了我们在帧级特征建模和视频级特征分类中的方法。 我们提出的方法主要解决以下三个问题。
一个视频中有太多无用的帧无法分类。 我们如何才能更多地关注真实的信息框架?
视频中的大量帧会导致训练效率低下。 我们如何利用邻域框架非常相似这一事实呢?
我们如何利用不同标签之间的语义关系来提高分类性能?
最后,我们给出了最终提交中采用的整体方法和模型。 最后,我们总结了我们的意见书,并提出了今后的工作建议。

2.方法

在本节中,我们主要详细演示用于获得最终提交信息的所有方法。 整个流程可以分为三部分:帧级特征建模,视频级特征分类和模型集成

2.1基准模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值