Anchor Free 的孪生目标跟踪-CSDN博客

本文链接：https://blog.csdn.net/wang15771397344/article/details/132414907

Anchor-free + 孪生网络做跟踪在 2020 年非常火爆，相关笔记在 b 站记录。本文主要对其整合进行简单归纳。

[Note3] Anchor Free 的目标跟踪 - 哔哩哔哩专栏 (bilibili.com)

[Note17] Anchor-free 的目标跟踪 (下) - 哔哩哔哩专栏 (bilibili.com)

跟踪任务可以看成是分类任务与状态估计任务的结合。分类任务的目的是精确定位目标的位置，而状态估计获得目标的姿态（即目标框）。SiamFC++ 一文将当前的跟踪器按照不同状态估计的方法分为三类：

以 DCF 和 SiamFC 为主的跟踪器，构建多尺度金字塔，将搜索区域缩放到多个比例，选择最高得分对应的尺度，这种方式是最不精确的同时先验的固定长宽比不适合现实任务；
以 ATOM 为主的跟踪器，借鉴 IOUNet，通过 IOU 的梯度迭代来细化 box，提升精度的同时带来了较多的超参数以及时间上的消耗；
以 SiamRPN 为主的追踪器，通过 RPN 预设 anchor 来回归框，这类方法虽然很高效，但是 anchor 的设定不但会引入模糊的相似性得分，而且 anchor 的设置需要有大量的数据分布先验信息，与通用跟踪的目的不符合。

本文主要记录用 Anchor Free 的思想来解决上述目标跟踪状态估计中存在的问题。目前比较主流的都是基于 FCOS 和 CenterNet 两种无锚框方式展开的。

FCOS 类

SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines

论文代码

针对 siam 网络分析了之前的工作不合理的地方，提出了 4 条 guidelines：

G1：decomposition of classification and state estimation：跟踪任务可以分解为分类与状态估计。分类影响鲁棒性，状态估计影响精确性。多尺度金字塔的方式忽略了状态估计所以精确性很低；

G2：non-ambiguous scoring：分类得分应该直接表示为目标在视野中存在的置信度分数，而不是像预定义的 anchor 那样匹配 anchor 和目标，这样容易产 False positive；

G3：prior knowledge-free：跟踪器不应该依赖过多的先验知识（如尺度 / 长宽比）。现有的方法普遍存在对数据分布先验知识的依赖，阻碍了其泛化能力；

G4：estimation quality assessment：不能直接使用分类置信度来评价状态估计，需要使用独立于分类的质量评估方式。（如 RPN 系列直接就是选择分类置信度最高的位置进行边框预测，而 ATOM，DIMP 则另外加入了 IOU 信息来指导边框调整）

作者依据这 4 条 guidelines 设计了 SiamFC++，将目标检测中的 Anchor Free 的 FCOS 应用到 Siamese 框架中，整体结构如下，细节部分可以去开头我在 b 站的专栏。

SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking

论文代码

这一篇和 SiamFC++ 很类似，这里仅标注一些实践细节的差异。

backbone 采用了改造的 resnet50；
multi-stage 融合对相关结果拼接用 1*1 卷积降维 / 融合，而不是像 siamrpn++ 那样对相关后的分类预测响应图加权相加；
分类和回归均由一个相关引出，而不是每个分支对应一个相关。这样计算量更小效率更高，而性能差不多；
inference 阶段为了避免抖动取了中心点周围 top-k 的均值作为最终结果。

细节同样参照开头 b 站专栏。

Siamese Box Adaptive Network for Visual Tracking

论文代码解读https://www.bilibili.com/read/cv5400217

同样是 FCOS 的应用，比较 insight 的地方是打标签的时候使用椭圆标签，两个椭圆，小椭圆 E2 内的点是 positive，大椭圆 E1 外的点是 negative，两个椭圆中间的部分为 ignore。椭圆标签能够更紧凑地标注正负样本，并且设置了缓冲 (ignore) 以忽略模棱两可的样本。

Fully Conventional Anchor-Free Siamese Networks for Object Tracking

论文

将 FCOS 与级联结构结合，另一个就是分配 GT 到 AFPN 层时采用了 FCOS 一样的思路（划分 [0,64], [64,128], [128,∞]）

Ocean: Object-aware Anchor-free Tracking

论文代码解读

anchor-base 方法对于弱预测的修正能力较差，因为训练时只考虑了 IOU 大于阈值的 anchor 的回归，对于跟踪过程中如果出现 overlap 很小的 anchor 很难去 refine。而 anchor-free 可以针对每个点进行预测；
作者设计了一个 feature alignment module 来从预测框中学习 object-aware feature（图 2c），从而对物体尺度敏感；
特征融合上采用 xy 轴膨胀系数不同的膨胀卷积进行融合，不同膨胀的卷积可以捕获不同尺度的特征，提高最终融合特征的尺度不变性。

CenterNet 类

Siamese Attentional Keypoint Network for High Performance Visual Tracking

论文

这篇将 CenterNet 和 CornerNet 结合到跟踪中，分别预测中心点和两个角点，以及运用了 CBAM 注意力机制强化上下文信息，应该是第一个将 CenterNet/CornerNet 用进来的，遗憾的是性能没有刷的很高。细节同样参照开头 b 站专栏。

Accurate Anchor Free Tracking

论文

这篇就是比较典型的 CenterNet 模式了，预测中心点，中心偏移以及宽高。

作者另外设计了 backbone，最后在 VOT2018 性能虽然比 siamrpn++ 略低但是速度是它的 3.9 倍（136FPS v.s. 35FPS）。

Siamese Keypoint Prediction Network for Visual Object Tracking

论文代码

这一篇将 casscade 的思想结合在 centernet 类的 siamese 跟踪器中，看上面图 2 结构已经很清晰了，KPN 结构如下：

还有一个需要关注的就是每个 stage 训练的时候分类标签的高斯方差不一样，遵循的原则就是越高的 stage 峰值越收束。目的即随着级联的进行，监管信号越来越严格。

其他

Correlation-Guided Attention for Corner Detection Based Visual Tracking

论文解读

作者为了解决跟踪中回归框估计不准确的问题，引入角点检测来得到更紧致的回归框。分析了之前一些角点检测方法在目标跟踪中无法取得好性能的原因，并提出了两阶段的 correlation-guided attentional corner detection (CGACD) 方法。第一阶段使用 siamese 网络得到目标区域的粗略 ROI，第二阶段通过空间和通道两个 correlation-guided attention 来探索模板和 ROI 之间的关系，突出角点区域进行检测。速度可以达到 70FPS。

RPT: Learning Point Set Representation for Siamese Visual Tracking

论文代码原作者解读

现有的跟踪方法往往采用矩形框或四边形来表示目标的状态（位置和大小），这种方式忽略了目标自身会变化的特点（形变、姿态变化），因此作者受启发自 Reppoints 检测方法，采用表示点（Representative Points）方法来描述目标的外观特征，学习表示点的特征，根据表示点的分布确定目标的状态，实现更精确的目标状态估计。

具体可以参考原作者在知乎的解读，该方法取得了 VOT2020-ST 的冠军。