视频分类论文阅读笔记之《ECO: Efficient Convolutional Network for Online Video Understanding》PaddlePaddle论文复现营

"ECO: Efficient Convolutional Network for Online Video Understanding, European Conference on Computer Vision (ECCV), 2018.”

paper: https://arxiv.org/pdf/1804.09066.pdf

code: https://github.com/mzolfaghari/ECO-efficient-video-understanding

 PyTorch implementation : https://github.com/mzolfaghari/ECO-pytorch

论文主要提出了在保证比较好的识别率的同时提高识别速度的方法。文中说在一块Tesla P100 GPU上ECO 达到675fps,

ECO Lite 达到970fps。

那具体是怎么做的呢?

1. 对视频图像进行合理的采样。

作者认为视频图像的上下帧信息有很多冗余,于是把输入视频分为N个相同长度的sections,对每个块随机采取一帧图像进行输入进行处理。

2. 采用合适的网络结构。

先用2D网络对输入图像进行处理,再把所有块的2D网络输出送到一个3D网络进行分类。网络结构图如下:

ECO网络结构

2D-Net: 用的是the BN-Inception architecture (until inception-3c layer)

相关论文:Ioffffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift.

3D-Net: 用的是 3D-Resnet18

相关论文:.Tran, D., Ray, J., Shou, Z., Chang, S., Paluri, M.: Convnet architecture search for spatiotemporal feature learning.

 

2D-Nets: 用的是the BN-Inception architecture from inception-4a layer until last pooling layer

3. 训练细节

(1)采用mini-batch SGD with Nesterov momentum
(2)utilize dropout in each fully connected layer
(3)数据增强等论文里写的很详细
 
附上一张结果图

 

论文复现课程链接:https://aistudio.baidu.com/aistudio/education/group/info/1340

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值