nextvlad:一个用于大规模视频分类的聚集帧级特征的有效神经网络 NeXtVLAD: An Efficient Neural Network toAggregate Frame-level Fea

NeXtVLAD是一种针对大规模视频分类的神经网络,通过分解帧级特征来实现更紧凑的视频表示,提高了效率并减少了参数数量。在YouTube-8M挑战中表现出色,模型参数少于80M,GAP分数达到0.87846。
摘要由CSDN通过智能技术生成

nextvlad:一个用于大规模视频分类的聚集帧级特征的有效神经网络

NeXtVLAD: An Efficient Neural Network toAggregate Frame-level Features for Large-scaleVideo Classification

摘要

  本文介绍了一种快速有效的网络体系结构——NextVlad,将帧级特征聚合成一个紧凑的特征向量,用于大规模视频分类。简单来说,基本思想是在随时间推移应用NetVLAD聚合之前,将一个高维特征分解成一组相对低维的关注向量。这种NeXtVLAD方法在聚集时间信息方面既有效又有参数效率。在第二次Youtube-8M视频理解挑战中,一个参数小于80M的NeXtVLAD模型在私人排行榜上的GAP分数为0.87846。3个NeXtVLAD模型的混合结果是0.88722,在394个团队中排名第三。该代码可在https://github.com/linrongc/youtube-8m公开获得

关键字:神经网络 vlad 视频分类 youtube8m

1.简介

  数码相机和智能手机的普及成倍增加了视频的数量,然后通过互联网上传、观看和共享。视频内容自动分类已经成为许多现实应用中的一个关键和具有挑战性的问题,包括基于视频的搜索、推荐和智能机器人等。为了加快视频内容分析的研究步伐,谷歌人工智能推出了第二个Youtube-8M视频理解挑战,旨在在有限的预算限制下学习更紧凑的视频表示。由于Youtube8M数据集的空前规模和多样性[1],它们还提供了通过预先训练的卷积神经网络(CNNs)提取的帧级视觉和听觉特征。主要的挑战是如何有效地将这些预先提取的特征集合成紧凑的视频级表示。NetVLAD是为位置识别任务聚集空间表示而开发的[2],对于视觉和听觉特征的时间聚集任务,它比常见的时间模型(如LSTM[3]和GRU[4])更有效、更快[5]。NetVLAD的主要缺点之一是编码的特征是高维的。基于这些特征的非平凡分类模型需要数亿个参数。例如,一个有128个集群的NetVLAD网络将把一个2048维的特征编码为一个262,144维的向量。具有2048维输出的后续全连接层将产生大约537M的参数。参数低效率会使模型更难优化,更容易过度拟合。为了解决参数低效问题,受ResNeXt[6]工作的启发,我们开发了一种新的神经网络体系结构NeXtVLAD。与NetVLAD不同,输入特征在被编码和随时间聚集之前,被分解成一组相对低维的关注向量。基本假设是一个视频帧可能包含多个对象,在编码之前分解帧级特征将有利于模型产生更简洁的视频表示。在Youtube-8M数据集上的实验结果表明,该模型在参数上比原NetVLAD模型更有效。此外,下一个VLAD模型可以收敛得更快,更能抵抗过度拟合。

2 相关工作

  在这一部分,我们简要回顾了最相关的研究特征聚合和视频分类。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值