Beyond Short Snippets: Deep Networks for Video Classification

Beyond Short Snippets: Deep Networks for Video Classification

摘要

卷积神经网络(CNNs)在图像识别领域得到了广泛的应用,在识别、检测、分割和检索等方面取得了最新的研究成果。在这项工作中,我们提出并评估了几种深度神经网络架构,以在比先前尝试更长的时间内组合视频中的图像信息。
我们提出了两种处理全长视频的方法。
第一种方法探索了各种卷积时间特征池体系结构,研究了在使CNN适应此任务时需要做出的各种设计选择。
第二种方法将视频显式地建模为有序的帧序列。为此,我们采用了一种递归神经网络,该网络使用与底层CNN输出相连接的长短期记忆(LSTM)细胞。

我们的最佳网络在Sports 1M数据集(73.1%对60.9%)和UCF-101数据集(88.6%对88.0%)上的性能比以前公布的结果有了显著的提高,并且没有额外的光流信息(82.6%对73.0%)。

为了在保持低计算量的同时学习视频的全局描述,我们建议每秒只处理一帧。在此帧速率下,隐式运动信息丢失。为了补偿,在[19]之后,我们将显式运动信息合并为在相邻帧上计算的光流图像的形式。因此,光流允许我们在捕获全局视频信息的同时保留运动信息的好处(通常通过高fps采样实现)。我们的贡献可以总结如下:

1. 我们提出了一种CNN架构来获取全局视频级描述符,并证明了增加帧数可以显著提高分类性能。

2. 通过在时间上共享参数,在特征池和LSTM架构中,参数的数量保持不变,与视频长度成函数关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值