CVPR 2021 | Spatial在左，Temporal在右！如何缓解视频动作理解中的隐式偏见之殇？...

最新推荐文章于 2024-04-12 15:37:41 发布

Amusi（CVer）

最新推荐文章于 2024-04-12 15:37:41 发布

阅读量803

点赞数 1

文章标签：计算机视觉机器学习人工智能深度学习编程语言

原文链接：https://zhuanlan.zhihu.com/p/355232006

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文作者：老大 | 来源：知乎（已授权）

https://zhuanlan.zhihu.com/p/355232006

论文：https://arxiv.org/abs/2009.05769 代码：https://github.com/FingerRec/BE

项目主页：

https://fingerrec.github.io/index_files/jinpeng/papers/CVPR2021/project_website.html

1. 动机：

在介绍这篇文章之前，先让我们从识别这两张图在做什么运动开始:

踢足球？

跑步？

而当我们把镜头时间拉长，看整个视频的时候, 就会发现实际对应的类别是"翻跟头"和"跳舞"

对于这种样本而言，如果一个模型过多关注空间信息，则很容易产生误判。

Background是双刃剑，过多或者过少关注都不好～

目前常用的数据集中含有大量类别其动作语义和物体及场景强相关，比如通过是否看到吉他来判断是否为“弹吉他”动作，通过是否看到足球场地来判断是否为 "踢足球"动作，这种运动类别和静态物体以及静态场景强相关的现象称之为Implicit Bias[4]。由于用户收集习惯和与场景关联的自然属性，现有的视频数据集中(eg. Kinetics, AVA)中存在大量implicit bias。

当用CNN在这些具有明显bias的数据集上进行训练时，CNN通常是lazy的，更倾向于使用简单的cues。这样带来的好处是在见过的对object/background有强依赖类别上可能会有个很好的分类效果，但是很难generalize到novel classes上以及一些hard cases(只能靠temporal information才能区分)上[1,2]。

对于这个问题，传统的two-stream (rgb + flow)有奇效, 通过把视频解耦编码场景信息的RGB流和编码运动信息的Flow流两部分可以很好的同时利用spatial和temporal信息(顺带一提，我们AAAI21的工作[9]也尝试了如何通过无监督学习decouple scene和motion)，但现在主流方法更多的使用end-to-end的3D网络，网络很容易陷入到implict bias中。为了缓解这个问题，之前工作的探索主要分为两个流派：

(1). 额外训练一个human detector, 在识别action的时候逐帧去掉actor区域，通过对抗学习与正常分类任务co-training,强迫网络更多关注temporal信息，参考NIPS19的Debiasing[1] ;

(2). 合成或者收集一些less bias的数据集，如ECCV20的Resound[2]， ICLR20的CATER[4]等；

以上两种方法各有千秋，在本文我们提出一种通过self-supervised learning来缓解implicit bias的新思路：

2. 方法：通过添加background noise来去掉background

受到semi-supervised learning中关于denoise和consistency regularization的启发[3]，我们的思路是合成一些background当作噪声，想办法让网络能弱化对background的依赖。

Consistency Regularization：对于同一个样本，添加微小扰动后，网络的预测结果应该保持不变；公式如下所示：

图片来源于[7]

而Data Augmentation的一种特殊形式是加噪：

其中通常为Gaussian噪声，我们的目标是生成和背景相似的图片作为噪声，在尝试了大量基于GAN以及VAE的方法之后，效果虽然有所提升但计算复杂度极高且很容易陷入模式坍塌(mode collapse)。我们转而在视频上开始尝试Mixup[5]中在RGB空间内插值的做法。

想到视频本身的静态帧的background和我们想要去掉的noise相似后，我们提出了Background Erasing(BE) 的，表示如下：

其中是任意一个视频，表示视频中帧的index；表示新生成的视频，我们假设数据集内所有样本都是Independent and identically distributed（IID）的，表示和原始视频内图像帧IID的噪声。这样做的优点是生成视频的时间微分(离散空间上的差分)是在原来视频差分图像的基础上线性变化的，而此前的一些方法[6]佐证了只使用图像差分(img diff)也能达到和RGB类似的分类效果。

而接下来的问题就是：怎么选？我们探索了五种形式，如下：

这五种方法对应的特点如下：

当我们采用Intra-video Frame 作为Noise的时候，我们保留了运动模式并且得到的图像和视频中其它图像的背景有相同的像素分布。最终生成的视频效果如下，我们称之为Distracting Video，直观来看，在appearance上有比较明显的区别，对应的光流梯度却比较类似。

而接下来的问题就是，怎么样把Distracting Video参与到模型的学习过程中？此外，有一些类别确实更依赖与Background，怎么权衡 Spatial 和 Temporal的信息？

我们的方法是在self-supervised的框架之下，如下图所示：(1) 首先通过pretrain的形式来抑制Background/Object的干扰。(2) 再对模型进行微调，不再限制spatial信息的学习。

我们的方法Background Erasing(BE)在pretrain阶段使用，详细PPL如下所示：

对于一个输入视频，通过random crop操作得到两个不同pixel-distribution的video clip之后，我们对经过distracting 的视频和原始视频编码通过自洽正则化进行约束。

3. 实验：

最终的实验结果如下，在只使用RGB作为输入的情况下能达到较好的性能，值得一提的是，我们的方法很容易集成到其它方法里，在Contrastive Learning和普通的Pretext两种范式下都work，在moco的框架下，我们的方法达到了sota。

我们对五种生成方式进行了消融实验，对应的实验结果如下：

其中Intra-Video Frame 相比于baseline效果最好，在UCF和HMDB上分别有9.7和10.8的增益。之后我们进行了一系列分析来验证我们的结果：

对于不同类别，我们发现相对性能提升(MoCo+BE相比于MoCo baseline)和静态视频分类结果之间有很强的皮尔森相关性，说明我们的方法对越依赖于时序分类的类别效果越好。

另一个有趣的实验是当我们移除掉视频里的部分背景以后，我们方法的效果相对稳定。具体而言，我们在HMDB51数据集的基础上采用Faster-rcnn [8] 进行detection+crop的形式生成Actor-HMDB51数据集，在比较相对性能的时候，我们的方法和Kinetics数据集监督学习之间的相对性能差异从HMDB51数据集上的19. 1缩小到了Actor-HMDB51数据集上的2.9。

此外，为了验证我们的方法的鲁棒性以及是不是只是学到了关注actor region，我们刻意构造了一些对抗样本。有意思的是，对于贴图攻击和static noise，我们的方法都具有很强的鲁棒性。

4. 总结

怎么平衡Spatial和Temporal一直以来是video understanding里至关重要的一个任务。我们想通过自监督学习的方法来弥补主流3D CNN容易受场景干扰的问题，在尝试接近1年之后，最终提出的方法非常简单且只用几行代码就可以扩展到任意视频自监督的方法，欢迎大家尝试～之前写了一篇简单的草稿介绍，这次算是一个完整的的介绍。

参考文献：

[1]. Choi J, Gao C, Messou J C E, et al. Why Can't I Dance in the Mall? Learning to Mitigate Scene Bias in Action Recognition[J]. NIPS, 2019.

[2]. Li Y, Li Y, Vasconcelos N. Resound: Towards action recognition without representation bias[C]//ECCV, 2018.

[3]. Laine S, Aila T. Temporal ensembling for semi-supervised learning[J]. ICLR, 2017.

[4]. Girdhar R, Ramanan D. Cater: A diagnostic dataset for compositional actions and temporal reasoning[J]. ICLR, 2020.

[5]. Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.

[6]. Wang L, Xiong Y, Wang Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]//ECCV, 2016.

[7]. miro.medium.com/max/269.

[8]. Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. arXiv preprint arXiv:1506.01497, 2015.

[9].Wang J, Gao Y, Li K, et al. Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion[J]. AAAI, 2021.

下载

后台回复：CVPR2021，即可下载代码开源的论文合集

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2400+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群