Rethinking Spatio temporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification
来源: ECCV 2018
文章链接:https://arxiv.org/abs/1712.04851
motivation
深度学习的出现带给了图像处理的各个领域巨大的提升,但是在视频方面却没有如此大的加速度。作者认为主要在视频领域面临以下三个问题。
- 如何有效的提取空间信息
- 如何有效的提取时间信息
- 如何有效的平衡速度和准确率
在视频行为分类领域提出的3D卷积模型引起了作者的注意,作者想要通过对3D卷积网络的探究,取解决上述的问题。这篇文章是以问题为导向的,全篇主要对以下问题做出回答。
- Do we even need 3D convolution?
- If so, what layers should we make 3D, and what layers can be 2D?
- Does this depend on the nature of the dataset and task?
- Is it important that we convolve jointly over time and space, or would it suffice to convolve over these dimensions independently?
- How can we use answers to the above questions to improve on prior methods in terms of accuracy, speed and memory footprint?
方法
- 对于问题1,作者通过将I3D模型中用2D卷积替换所有的3D卷积,来验证3D卷积的效用,如下图,因为2D卷积不具备时间信息的提取能力,所以将视频序列反转之后的检测结果应该是不变的;相反,因为3D卷积具有时间信息提取能力,则应该对输入视频帧的顺序很敏感。
实验结果如下:可以看到第二个数据集上序列反转前后,实验结果相差不大,而I3D却差别很大。但是在第一个数据集上I3D和I2D差不多,作者觉得是因为第一个数据集视频类别之间的相似度不大,模型不需要做很细粒度的区分(总感觉这个结论给的很草率。。。。。。)。
- 对于问题2,作者设计了两个模型,第一个模型是用一些2D卷积去替换I3D的底层的卷积( Bottom-Heavy-I3D),另一个是替换顶层的卷积ÿ