Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning
- 概述:
CVPR2021的文章,也是自监督学习中pretext task的设计,其中的思考很值得咀嚼吸收。
通篇提到的background,应该既有背景的意思,也有场景的意思 - 上面的知乎链接介绍了
文章的动机
:
【知乎原文】… 如果一个模型过多关注空间信息,则很容易产生误判 【比如只关注一帧图像】
Background是双刃剑,过多或者过少关注都不好~
目前常用的数据集中含有大量类别其动作语义和物体及场景强相关,比如通过是否看到吉他来判断是否为“弹吉他”动作,通过是否看到足球场地来判断是否为 "踢足球"动作,这种运动类别和静态物体以及静态场景强相关的现象称之为 Implicit Bias …
【下面是我的转述】
在上述的数据集训练 CNN 的时候,那些跟【场景/背景、物体】关联性很高的类别(踢足球、弹吉他)就有比较好的分类效果,比较新奇或者要依靠时序信息才能分辨的类别,就难整了;
针对这个问题,传统的双流法 (rgb + flow)有帮助,因为RGB流、Flow流本身就较好地利用了 spatial 和 temporal 信息,但现在主流方法更多的使用 end-to-end 的3D网络,网络很容易陷入到 implict bias 中。
一、神奇的想法:通过添加background来去掉background
小标题可能不好理解,但其实就是上面提到的“文章的动机”:Back