Rethinking Spatio temporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

Rethinking Spatio temporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

来源: ECCV 2018
文章链接:https://arxiv.org/abs/1712.04851

motivation

深度学习的出现带给了图像处理的各个领域巨大的提升,但是在视频方面却没有如此大的加速度。作者认为主要在视频领域面临以下三个问题。

  1. 如何有效的提取空间信息
  2. 如何有效的提取时间信息
  3. 如何有效的平衡速度和准确率

在视频行为分类领域提出的3D卷积模型引起了作者的注意,作者想要通过对3D卷积网络的探究,取解决上述的问题。这篇文章是以问题为导向的,全篇主要对以下问题做出回答。

  1. Do we even need 3D convolution?
  2. If so, what layers should we make 3D, and what layers can be 2D?
  3. Does this depend on the nature of the dataset and task?
  4. Is it important that we convolve jointly over time and space, or would it suffice to convolve over these dimensions independently?
  5. How can we use answers to the above questions to improve on prior methods in terms of accuracy, speed and memory footprint?

方法

  1. 对于问题1,作者通过将I3D模型中用2D卷积替换所有的3D卷积,来验证3D卷积的效用,如下图,因为2D卷积不具备时间信息的提取能力,所以将视频序列反转之后的检测结果应该是不变的;相反,因为3D卷积具有时间信息提取能力,则应该对输入视频帧的顺序很敏感。
    在这里插入图片描述
    实验结果如下:可以看到第二个数据集上序列反转前后,实验结果相差不大,而I3D却差别很大。但是在第一个数据集上I3D和I2D差不多,作者觉得是因为第一个数据集视频类别之间的相似度不大,模型不需要做很细粒度的区分(总感觉这个结论给的很草率。。。。。。)。
    在这里插入图片描述
  2. 对于问题2,作者设计了两个模型,第一个模型是用一些2D卷积去替换I3D的底层的卷积( Bottom-Heavy-I3D),另一个是替换顶层的卷积ÿ
  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值