siamese-fc

最新推荐文章于 2024-04-15 09:33:58 发布

樨潮

最新推荐文章于 2024-04-15 09:33:58 发布

阅读量487

点赞数

分类专栏：目标追踪

原文链接：https://blog.csdn.net/qq_28778507/article/details/89319878

版权

目标追踪专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文链接： https://blog.csdn.net/qq_28778507/article/details/89319878

这是2016CVPR收录的
在此之前，目标追踪一般都是online的，在这里引入了深度学习offline的训练，他提出了一种思想：similarity learning
他有三大contribution：

首先在速度上可以实现实时检测
通过一个范本来定位想要的被追踪物体（detection物体为卷积核，卷积下一帧的feature map）
使用了全卷积网络

他的缺点：

如果物体size变化太大时效果不太好
如果有一堆相似的目标混在一起，效果不好，容易追岔
如果物体视觉上发生了变化，如：关照改变，部分遮挡，物体形变，则效果不好

思路

function
它通过function $f (z, x) f (z, x) f (z, x)$ $p = (w + h) / 4$ 这样才能让bbox位于范本的中央。
同时为了保证图形不形变，对于不满足大小的图片进行，取像素的平均值进行填充。

backbone

Alex net
在这里插入图片描述
PS：siamese-RPN的backbone也用了alexnet，为啥不用VGG，resnet呢，这里有别的大佬给的回答。
原文：https://blog.csdn.net/qq_35945399/article/details/81192003

个人的理解是这样，VGG，Inception，ResNet这些模型学到的是每一类物体的特点，因此在测试时可以输出物体的类别。Siamese-RPN模型真正学到的，并不是某一类或某几类物体的特点，而是通过这些物体来学习所有物体形变的特点。也就是说虽然物体的种类有很多，但任何物体的形变都是有规律的，是可迁移的，或者说是可数的。当然，所有形变的种类加起来是无数种（比如旋转，可以旋转0~360之间任何一个角度，还包括扭曲、弯折等更复杂的形变），但由于它们都有规律，那么当训练集足够大时，就可以囊括（或者说模型可以学到）各种各样的规律，这样就可以用《用只包含有限物体的训练集而训练出的模型》来《对任意物体进行跟踪》。因此即使模型在面对一个没见过的物体时，也能正确进行跟踪。

tracking

siamese-fc

对1717的结果进行上采样，通过线性插值的方法映射到272272，将score map中响应值最大点映射回272*272目标位置。（说实话这里怎么插值没看懂）

evaluation

OTB-13
在这里插入图片描述

VOT-14

在这里插入图片描述

                                </div>
            <link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-e44c3c0e64.css" rel="stylesheet">
                </div>