【2017】Large-Scale YouTube-8M Video Understanding with Deep Neural Networks借助深度神经网络对YT8M进行大规模视频理解

本文探讨了使用深度学习模型解决YouTube-8M大规模视频分类问题。研究了基于帧池化(BoF)、简单LSTM和LSTM_MoE结构的模型,其中LSTM_MoE利用专家混合层进行长期时间依赖性建模。实验显示,最佳模型能显著提升基线性能。
摘要由CSDN通过智能技术生成

paper: https://arxiv.org/abs/1706.04488

摘要
视频分类问题已经研究了很多年。 卷积神经网络(CNN)在图像识别任务中的成功为研究人员创建更高级的视频分类方法提供了强大的动力。 由于视频具有时间内容,因此长期短期记忆(LSTM)网络成为方便的工具,可以对长期的时间线索进行建模。 两种方法都需要输入数据的大型数据集。 本文提供了三个模型,用于使用最近宣布的YouTube8M大规模数据集解决视频分类问题。 第一个模型基于帧池化方法。 基于LSTM网络的其他两个模型。 在第三模型中使用了专家中间层的混合物,从而可以在不显着增加计算的情况下增加模型容量。 已经进行了一组用于处理不平衡训练数据的实验。

1.介绍

近年来,随着深度学习方法的兴起,图像分类问题正在复兴。 设计了许多模型(AlexNet [1],VGGNet [2],ResNet [3],Inception [4]),它们可以有效地识别图像内容。 这样做的第一个原因是免费发布了高分辨率图像ImageNet [5]的大规模数据库,并且在GPU上使用了高效的操作,从而以相对较低的成本提供了高吞吐量的计算。 这种深度学习模型的预测准确性接近于人类水平的表现。
这个方向的下一步不仅是静态图像中的对象识别,还包括动作识别,视频分类。 提供这些问题输入数据集的基准很少(Sports-1M [6],UCF101 [7]等)。 最近发布的YouTube-8M基准测试[8]的数据集规模大大超过了竞争对手。就像该区域中的对象识别一样,许多手工制作的视频帧特征提取方法&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值