【论文名称】:
Distractor-aware Siamese Networks for Visual Object Tracking(Zheng Zhu, Qiang Wang, Bo Li, Wei Wu.)
【概述】:
本文是SiamRPN文章的follow-up,重点强调了训练过程中样本不均衡的问题,增加了正样本的种类和有语义的负样本。实时性好(160 FPS on short-term datasets and 110 FPS on long-term datasets.)
创新点:
- 使用了图片数据,通过augmentation制作图像pair,用于训练,增强模型泛化能力。
- 使用了有语义的负样本(与目标不同类别,同类的不同实例),让网络更有判别力。
作者专栏:https://zhuanlan.zhihu.com/p/42546692
代码链接:https://github.com/foolwood/DaSiamRPN
面临的问题及解决方案:
【问题1】: 大多数Siamese跟踪方法中使用的特征只能区分前景和非语义背景
具体表现为,跟错人的时候,SiamRPN分类的分数仍然比较高,据此推断SiamRPN只能区分出objectness/non-objectness的区分,但对于有语义的其它背景信息(比如其它行人),不具备区分能力。
【解决方案】:学习distractor-aware的特征
作者认为这是训练样本不均衡造成的,
- 一个是正样本种类不够多,导致模型的泛化性能不够强;我们的解决方案是加入detection的图片数据(使用的是ImageNet和COCO的图片数据集,制作图像对用于训练), pair可以由静态图片通过数据增益生成(在数据增强方面,引入了运动模糊);加入detection数据生成的正样本之后,模型的泛化性能得到了比较大的提升.
- 第二个样本不均衡来自于难例负样本,在之前的Siamese网络训练中**, 负样本过于简单,很多是没有语义信息的**;我们的解决办法是用不同类之间的样本(还有同类的不同instance)构建难例负样本,从而增强分类器的判别能力. 不同种类的正负样本的构建可以参见下图. 以上两个改进大大改善了相应分数的质量,见上图的右半部分:在丢失目标的时候,相应分数随之变得很低,说明跟踪器的判别能力得到了改善.
【问题2】: 大多数Siamese网络由于采用局部搜索策略,因而无法进行Long-term跟踪
【解决方案】:使用local-to-global的扩展搜索区域方法,逐步增加搜索区域,重新检测目标位置
细节:
- 每张图片提取5个proposal,得分最高的作为目标,其他高于阈值的作为distractor(干扰样本)。
- Loss function:
字面上理解,就是说希望预测的目标 p k p_k pk与真实的目标 z z z尽可能接近,而与干扰 d i d_i di尽可能远离。 - 本文用到的数据集:
- 用来训练的有:
ImageNet-VID,YouTube-BB,ImageNet,COCO(后两个用来生成图像对) - 用来测试的有:
VOT16/VOT17/VOT18(评估指标是独立于其他数据集的,用A、R、EAO三个指标来衡量)
OTB50/OTB100(评估指标为精确图和成功率图)
UAV(无人机拍摄视频,包括Long-term的UAV20L和Short-term的UAV123两个子数据集)(评估指标为精确图和成功率图)