【论文笔记】ECCV2018_DaSiamRPN

最新推荐文章于 2025-03-29 15:23:34 发布

aaon22357

最新推荐文章于 2025-03-29 15:23:34 发布

阅读量649

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/aaon22357/article/details/91990450

版权

7 篇文章

订阅专栏

该文提出了一种改进的Siamese网络——Distractor-aware Siamese Networks，用于视觉对象跟踪，解决了训练样本不均衡的问题，增强了模型的泛化能力和判别力，实现实时高效跟踪。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文名称】：
Distractor-aware Siamese Networks for Visual Object Tracking(Zheng Zhu, Qiang Wang, Bo Li, Wei Wu.)

【概述】：
本文是SiamRPN文章的follow-up，重点强调了训练过程中样本不均衡的问题，增加了正样本的种类和有语义的负样本。实时性好（160 FPS on short-term datasets and 110 FPS on long-term datasets.）
创新点：

面临的问题及解决方案：

【问题1】: 大多数Siamese跟踪方法中使用的特征只能区分前景和非语义背景

具体表现为，跟错人的时候，SiamRPN分类的分数仍然比较高，据此推断SiamRPN只能区分出objectness/non-objectness的区分，但对于有语义的其它背景信息（比如其它行人），不具备区分能力。
在这里插入图片描述

【解决方案】：学习distractor-aware的特征

作者认为这是训练样本不均衡造成的，

一个是正样本种类不够多，导致模型的泛化性能不够强；我们的解决方案是加入detection的图片数据（使用的是ImageNet和COCO的图片数据集，制作图像对用于训练）, pair可以由静态图片通过数据增益生成（在数据增强方面，引入了运动模糊）；加入detection数据生成的正样本之后，模型的泛化性能得到了比较大的提升.
第二个样本不均衡来自于难例负样本，在之前的Siamese网络训练中**, 负样本过于简单，很多是没有语义信息的**；我们的解决办法是用不同类之间的样本（还有同类的不同instance）构建难例负样本，从而增强分类器的判别能力. 不同种类的正负样本的构建可以参见下图. 以上两个改进大大改善了相应分数的质量，见上图的右半部分：在丢失目标的时候，相应分数随之变得很低，说明跟踪器的判别能力得到了改善.

【问题2】： 大多数Siamese网络由于采用局部搜索策略，因而无法进行Long-term跟踪

【解决方案】：使用local-to-global的扩展搜索区域方法，逐步增加搜索区域，重新检测目标位置

用来训练的有：
ImageNet-VID，YouTube-BB，ImageNet，COCO（后两个用来生成图像对）
用来测试的有：
VOT16/VOT17/VOT18（评估指标是独立于其他数据集的，用A、R、EAO三个指标来衡量）
OTB50/OTB100（评估指标为精确图和成功率图）
UAV（无人机拍摄视频，包括Long-term的UAV20L和Short-term的UAV123两个子数据集）（评估指标为精确图和成功率图）