【论文笔记】ECCV2018_DaSiamRPN

【论文名称】:
Distractor-aware Siamese Networks for Visual Object Tracking(Zheng Zhu, Qiang Wang, Bo Li, Wei Wu.)

【概述】:
本文是SiamRPN文章的follow-up,重点强调了训练过程中样本不均衡的问题,增加了正样本的种类和有语义的负样本。实时性好(160 FPS on short-term datasets and 110 FPS on long-term datasets.)
创新点:

  1. 使用了图片数据,通过augmentation制作图像pair,用于训练,增强模型泛化能力。
  2. 使用了有语义的负样本(与目标不同类别,同类的不同实例),让网络更有判别力。

作者专栏:https://zhuanlan.zhihu.com/p/42546692
代码链接:https://github.com/foolwood/DaSiamRPN

面临的问题及解决方案:

【问题1】: 大多数Siamese跟踪方法中使用的特征只能区分前景和非语义背景

具体表现为,跟错人的时候,SiamRPN分类的分数仍然比较高,据此推断SiamRPN只能区分出objectness/non-objectness的区分,但对于有语义的其它背景信息(比如其它行人),不具备区分能力。
在这里插入图片描述

【解决方案】:学习distractor-aware的特征

作者认为这是训练样本不均衡造成的,

  1. 一个是正样本种类不够多,导致模型的泛化性能不够强;我们的解决方案是加入detection的图片数据(使用的是ImageNet和COCO的图片数据集,制作图像对用于训练), pair可以由静态图片通过数据增益生成(在数据增强方面,引入了运动模糊);加入detection数据生成的正样本之后,模型的泛化性能得到了比较大的提升.
  2. 第二个样本不均衡来自于难例负样本,在之前的Siamese网络训练中**, 负样本过于简单,很多是没有语义信息的**;我们的解决办法是用不同类之间的样本(还有同类的不同instance)构建难例负样本,从而增强分类器的判别能力. 不同种类的正负样本的构建可以参见下图. 以上两个改进大大改善了相应分数的质量,见上图的右半部分:在丢失目标的时候,相应分数随之变得很低,说明跟踪器的判别能力得到了改善.

 
【问题2】: 大多数Siamese网络由于采用局部搜索策略,因而无法进行Long-term跟踪

【解决方案】:使用local-to-global的扩展搜索区域方法,逐步增加搜索区域,重新检测目标位置

 

细节:

  • 每张图片提取5个proposal,得分最高的作为目标,其他高于阈值的作为distractor(干扰样本)。
  • Loss function:
    在这里插入图片描述
    字面上理解,就是说希望预测的目标 p k p_k pk与真实的目标 z z z尽可能接近,而与干扰 d i d_i di尽可能远离。
  • 本文用到的数据集:
  1. 用来训练的有:
    ImageNet-VID,YouTube-BB,ImageNet,COCO(后两个用来生成图像对)
  2. 用来测试的有:
    VOT16/VOT17/VOT18(评估指标是独立于其他数据集的,用A、R、EAO三个指标来衡量)
    OTB50/OTB100(评估指标为精确图和成功率图)
    UAV(无人机拍摄视频,包括Long-term的UAV20L和Short-term的UAV123两个子数据集)(评估指标为精确图和成功率图)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值