论文阅读 | Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

最新推荐文章于 2024-10-15 20:55:22 发布

btee

最新推荐文章于 2024-10-15 20:55:22 发布

阅读量144

点赞数

分类专栏：论文阅读文章标签：论文阅读 cnn 深度学习

本文链接：https://blog.csdn.net/bettii/article/details/129375445

版权

论文阅读专栏收录该内容

23 篇文章 0 订阅

订阅专栏

前言：ECCV2018年的论文，对视频分类的3D卷积进行了实验，发现在顶部（粗尺度）应用3D效果更好，以及进行时空可分离卷积效果更好

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

引言

CNN在图像分类那边取得了很惊人的效果，但在视频分类这边却不如图像分类一样效果。
我们提出了三个挑战：

怎么更好的表示空间信息
怎么更好的表示时间信息
怎么更好的平衡性能和效率之间的关系

而我们在这篇文章中的工作主要解决了以下问题

我们需要3D卷积吗？那些层可以被替换成2D？这是否是取决于数据集的不同？
我们需要将时空卷积一起应用还是只要独立的进行时间和空间的卷积就好了？
我们怎么用上述问题的答案来改进我们的网络使其变得更有效率？

实验

把3D换成2D

I3D网络结构
在这里插入图片描述
2D网络结构

其中的3D Inc 和2D Inc的结构
在这里插入图片描述
在两个数据集上的分类结果为

可以发I3D的效果整体比I2D要好，而I2D在进行了时间域上的反转之后并没有任何明显性能的改变，但是在something - something数据集上进行时间反转分类效果差很多，这说明3D是可以学到时域特征的；
（这里的反转后的类别怎么划分我不是很清楚，倘若类别是一致的话，一个人逐渐坐下和一个人逐渐站起来的视频分类会造成不一致，但是没有时域信息的话，这两组图片则有着相同的特征含义）

仅把部分层的3D替换成2D

这里作者主要是比较了底部是3D卷积的网络
在这里插入图片描述
和顶部是3D卷积的网络

进行比较，实验结果如下：

在这里插入图片描述
可以发现，实线和虚线的比较，在两个数据集上，实线的结果好于虚线的结果，说明在顶部用3D的效果更好

将时空卷积进行分离

我们构建了一个时空卷积分离的3D网络
在这里插入图片描述
sep - Inc

该网络S3D和I3D的比较，参数量和计算量都减小了，但是性能提升了

而对于顶部和底部用3D的话，对于时空可分离卷积也是用在顶部效果好
不同网络在不同层的分类可视化

作者解释，对于红色的类别，top-S3D 的分类更精确