DaSiamRPN论文阅读笔记

最新推荐文章于 2024-03-11 15:47:19 发布

gagajian

最新推荐文章于 2024-03-11 15:47:19 发布

阅读量3.8k

点赞数 3

文章标签：目标跟踪深度学习

本文链接：https://blog.csdn.net/sinat_31184961/article/details/83866339

版权

论文：Distractor-aware Siamese Networks for Visual Object Tracking（ECCV2018）
这篇文章是VOT2018的冠军文章

目前的孪生网络已经被大量移植到目标跟踪领域中，但存在三个基本问题：
1、在大部分的Siamese网络中使用的特征只是将背景前景简单区分，并没有使用语义信息；
2、大部分的Siamese跟踪器在跟踪过程中没有模型更新过程，虽然这样速度快，但是不能应对剧烈的目标表观变化；
3、最近的Siamese跟踪器不能处理目标全部遮挡和目标消失再出现的情况。

这篇文章的网络结构和SiamRPN（CVPR2018）一样，只是对训练数据进行处理，他们认为当前精度不高的原因主要在于非语义的背景和有语义的背景数据的不平衡，数据量不够大。在数据方面，他们创造了新的数据：
1、创造正样本：利用ImageNet和COCO数据库的图片做正样本对，并对图片进行一个augmentation操作；
2、创造负样本：在不同的类别中和相同类别中分别提取照片做为负样本，制造困难负样本，这篇文章中除了使用简单的转换，光线变换，还使用了运动方向模糊的方法（运动方向可以从低层特征得到）；
在这里插入图片描述

目前的训练策略已经增强了模型的判别力，但是模型还是难区分图像中对象很相似的情况，在以往的Siamese跟踪器中对于运动messy的物体总是得到很差的结果，于是这篇文章在跟踪的时候使用的是分类器而不是以往的相似度度量方式，使用了上下文信息。提出了干扰物识别模型（Distractor-aware Incremental Learning）
在跟踪的时候，对于前一帧，用最大值抑制选择17175个proposal，其中拥有最高NMS值的选做target，其他超过某个阈值的当做distractor。然后使用distractor-aware objective function对proposal重新排序：
在这里插入图片描述
其中q就是选中的对象，这个公式可以看出，就是要使得对象与模板之间越想越好，与di之间越不像越好。

但是这样，在每一帧就会多出n次计算，所以作者使用结合率对计算进行加快：
在这里插入图片描述

有了上面的定义后，它们将跟踪当前帧作为一个增量学习过程，利用前面帧的信息来学习到当前帧的目标，就使得跟踪模板是在线更新的，可以处理很多目标严重遮挡，目标表观变化等问题：
在这里插入图片描述

长时间跟踪
文章还提出了一个local-to-global的策略来进行长时间跟踪，由下图可以看到，SiamRPN的score只是表示是否找到前景，而本文的score能准确表示是否找到正确目标。所以当score比较小的时候，就扩大搜索框，直到找到目标。（这边搜索框的大小表示卷积操作在图片上扫的区域，因为在视频中两帧之间目标不会有很大的变化）
在这里插入图片描述

实验
在这里插入图片描述

在这里插入图片描述

优点：
1、分析了Siamese跟踪器中所使用的特征，并发现了无语义的背景和语义的distractor之间的不平衡；
2、提出了一个distractor识别网络，在在线跟踪的时候可以消除一些distractor的问题；
3、本文的算法不仅在短时间的跟踪问题上表现好，在长时间的跟踪问题上也超过了目前最好的算法PTAV。

缺点：
1、这个方法对遮挡的鲁棒性不好，推测是其使用的增量模型更新方法导致的，这篇文章使用的模型更新方法（选择bbox方法），就是使用之前所有帧得到的结果加权平均，可能出现一些过拟合的情况。
2、也算不上缺点把，就是在网络上没做什么特别大的贡献，只是在训练数据上做优化。个人认为这个方法还能做的地方就是在模型更新这一块。