Robust Region Feature Synthesizer for Zero-Shot Object Detection
作者:YPeiliang Huang1, Junwei Han1, De Cheng2, Dingwen Zhang1
一、Background
- 随着CNN和Transformer等深度学习技术的快速发展,目标检测研究领域出现了很多amazing的工作。虽然现有方法的检测性能看起来很成功,但在实际场景中应用它们存在一个隐藏的缺点——即只能在已见类(seen)上发挥较好的作用,在未见类(unseen)上的检测结果并不乐观。
- 也就是说模型一旦被训练,它只能识别出现在训练数据中的物体,而其他出现在测试图像中但在训练过程中看不到的物体会极大地混淆模型,导致无法避免的检测结果错误。
- 为了解决这个问题,近年来提出了零样本目标检测(ZSD)的任务。目标是使模型能够预测在训练期间没有见过的对象。
二、Motivation
- 零样本目标检测可以提升模型对训练阶段不可见目标类的检测能力。
- 在实际情况下,样本构建的特征空间显示出较高的类内多样性,但仍具有类间可分离性,如a所示。
- 而现有方法学习的合成视觉特征空间要么类内多样性不足(如b所示),要么具有过多的类内多样性,使类间不可分割(如c所示)。