Rethinking Spatio temporal Feature Learning: Speed-Accuracy Trade-offs in Video Classiﬁcation

最新推荐文章于 2023-03-07 10:06:51 发布

呆军

最新推荐文章于 2023-03-07 10:06:51 发布

阅读量1.6k

点赞数 6

分类专栏：论文阅读

本文链接：https://blog.csdn.net/m0_38065546/article/details/94868216

版权

来源： ECCV 2018
文章链接：https://arxiv.org/abs/1712.04851

深度学习的出现带给了图像处理的各个领域巨大的提升，但是在视频方面却没有如此大的加速度。作者认为主要在视频领域面临以下三个问题。

在视频行为分类领域提出的3D卷积模型引起了作者的注意，作者想要通过对3D卷积网络的探究，取解决上述的问题。这篇文章是以问题为导向的，全篇主要对以下问题做出回答。

Do we even need 3D convolution?
If so, what layers should we make 3D, and what layers can be 2D?
Does this depend on the nature of the dataset and task?
Is it important that we convolve jointly over time and space, or would it sufﬁce to convolve over these dimensions independently?
How can we use answers to the above questions to improve on prior methods in terms of accuracy, speed and memory footprint?

对于问题1，作者通过将I3D模型中用2D卷积替换所有的3D卷积，来验证3D卷积的效用，如下图，因为2D卷积不具备时间信息的提取能力，所以将视频序列反转之后的检测结果应该是不变的；相反，因为3D卷积具有时间信息提取能力，则应该对输入视频帧的顺序很敏感。

实验结果如下：可以看到第二个数据集上序列反转前后，实验结果相差不大，而I3D却差别很大。但是在第一个数据集上I3D和I2D差不多，作者觉得是因为第一个数据集视频类别之间的相似度不大，模型不需要做很细粒度的区分（总感觉这个结论给的很草率。。。。。。）。
对于问题2，作者设计了两个模型，第一个模型是用一些2D卷积去替换I3D的底层的卷积（ Bottom-Heavy-I3D），另一个是替换顶层的卷积ÿ

关注