【论文阅读笔记】Large-scale Video Classification with Convolutional Neural Networks

该论文介绍了将卷积神经网络(CNN)应用于视频分类的方法,通过低分辨率和高分辨率流处理减少训练时间。研究包括单帧模型、后期融合、早期融合和慢融合模型,探讨了不同时间信息融合策略对视频理解的影响。此外,提出Fovea和context streams技术以加速CNN处理,提高效率而不牺牲准确性。
摘要由CSDN通过智能技术生成
  • 论文贡献:

1.采用多种方法扩展CNN到视频识别,并用Sports-1M数据集进行验证和测试。

2.提出了将输入处理为低分辨率流和高分辨率流的方法,在不影响精确度的前提下显著减少了CNN的训练时间。

3.验证模型能够扩展到UCF101数据集上,且显著提升了精确率。

  • 时间信息融合模型:

a)单帧模型(Single-frame):用于得到静态图像对视频分类的贡献。CNN结构:C(96,11,3)-N-P-C(256,5,1)-N-P-C(384,3,1)-C(384,3,1)-C(256,3,1)-P-FC(4096)-FC(4096)。C(d,f,s)中d代表卷积核个数,f代表卷积核大小f X f,s代表步长。N代表normalization layers,P代表池化层,参数均为2 X 2。分类器为softmax。

b)后期融合模型(Late Fusion):模型中包含两个单帧模型,参数共享。两个模型的输入使间隔为15的两帧,通过卷积层后对两个模型的输出使用两个全连接层进行融合。单帧模型无法检测到运动信息,但是通过第一个卷积层能够得到全局运动特征。

c)早期融合模型(Early Fusion):通过整个时间窗即时得到像素级的组合信息。修改单帧模型的第一层卷积核为11X11X3XT,T表示时间范围参数,本文中使用T=10或者1/3秒左右。像素数据的早期连接融合使网络能够精确地检测到局部物体的运动方向和速度。

d)慢融合(Slow Fusion):该模型是上述两个的模型的中和。模型高层能够逐步

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值