valse2019会议的workshop9《在线视觉跟踪》中上海交通大学的马超老师分享的题目是《基于对抗式深度学习和往复式深度学习的视觉目标跟踪》,本次分享主要是基于《VITAL:Visual Tracking via Adversarial Learning》和《Deep Attentive Tracking Via Reciprocative Learning》这两篇分别发表在CVPR 2018和NIPS 2018上的工作。
马超老师先是将现有跟踪算法分为回归模型和分类模型两类,而后指出了两种方法各自的特点,如回归模型会输出密集的响应图,方便利用多层级深度特征,但是对尺度不敏感,而分类模型会输出稀疏响应图,依赖随机采样,对尺度敏感,方便与生成网络、注意力机制结合。从而基于正样本在空间上过度重合以及正负样本数量严重不平衡的角度出发,决定采取生成判别网络(GAN)来多样化正样本,采用代价敏感的损失函数减轻样本数量不平衡的问题。并指出了在使用GAN的过程中引发的一些思考:
1)、无法直接利用GAN提高两阶段 基于检测的跟踪框架;
2)、网络输入是采样的图片而不是噪声;
3)、分类器需要的是有监督学习,而不是简单的Fake和True;
4)、需要的是判别器、而不是生成器.
基于上述思考提出了自己的方法,如图(1)所示:
采用了类似attention的机制,生成一个 brunch,得出mask,乘在特征上来得到分类损失。
类似attention是因为该机制与attention相反的,是对抗学习的过程。训