论文阅读 | Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

前言:ECCV2018年的论文,对视频分类的3D卷积进行了实验,发现在顶部(粗尺度)应用3D效果更好,以及进行时空可分离卷积效果更好

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

引言

CNN在图像分类那边取得了很惊人的效果,但在视频分类这边却不如图像分类一样效果。
我们提出了三个挑战:

  • 怎么更好的表示空间信息
  • 怎么更好的表示时间信息
  • 怎么更好的平衡性能和效率之间的关系

而我们在这篇文章中的工作主要解决了以下问题

  • 我们需要3D卷积吗?那些层可以被替换成2D?这是否是取决于数据集的不同?
  • 我们需要将时空卷积一起应用还是只要独立的进行时间和空间的卷积就好了?
  • 我们怎么用上述问题的答案来改进我们的网络使其变得更有效率?

实验

把3D换成2D

I3D网络结构
在这里插入图片描述
2D网络结构
在这里插入图片描述

其中的3D Inc 和2D Inc的结构
在这里插入图片描述
在两个数据集上的分类结果为
在这里插入图片描述
可以发I3D的效果整体比I2D要好,而I2D在进行了时间域上的反转之后并没有任何明显性能的改变,但是在something - something数据集上进行时间反转分类效果差很多,这说明3D是可以学到时域特征的;
(这里的反转后的类别怎么划分我不是很清楚,倘若类别是一致的话,一个人逐渐坐下和一个人逐渐站起来的视频分类会造成不一致,但是没有时域信息的话,这两组图片则有着相同的特征含义)

仅把部分层的3D替换成2D

这里作者主要是比较了 底部是3D卷积的网络
在这里插入图片描述
和顶部是3D卷积的网络
在这里插入图片描述
进行比较,实验结果如下:

在这里插入图片描述
可以发现,实线和虚线的比较,在两个数据集上,实线的结果好于虚线的结果,说明在顶部用3D的效果更好

将时空卷积进行分离

我们构建了一个时空卷积分离的3D网络
在这里插入图片描述
sep - Inc
在这里插入图片描述
该网络S3D和I3D的比较,参数量和计算量都减小了,但是性能提升了
在这里插入图片描述
而对于顶部和底部用3D的话,对于时空可分离卷积也是用在顶部效果好在这里插入图片描述
不同网络在不同层的分类可视化
在这里插入图片描述
作者解释,对于红色的类别,top-S3D 的分类更精确

时空特征门控

实际就是一个自注意力
在这里插入图片描述
作者将这个门控模块插入每一层的后面,得到一个S3D-G网络(没有可视化,不是太好理解具体怎么实现的)
在这里插入图片描述
可以看到性能有大幅提升
以及在另一个数据集上不同网络的比较
在这里插入图片描述

以及一些其他的实验
比如加了光流的分类
在这里插入图片描述
在其他数据集上微调
在这里插入图片描述
以及行为检测
在这里插入图片描述

总结

这里作者总结说有三个可以提升性能的点,就是在顶部用3D,时空分离卷积,门控,但是作者在设计自己的网络的时候,并没有采用这种,只在顶部用3D的网络,也没有对比I3D和Top-I3D的性能区别和参数量计算量的变化,而且最后的S3D-G的pipeline也没画出来,这点我很困惑

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值