【论文笔记】A Unified Approach for Tracking UAVs in Infrared

最新推荐文章于 2023-09-22 17:06:22 发布

外码不是码

最新推荐文章于 2023-09-22 17:06:22 发布

阅读量532

点赞数

分类专栏：论文笔记文章标签：目标跟踪计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_61942451/article/details/125130150

版权

论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

摘要

本文设计了一个统一的框架来追踪无人机，包括局部追踪器、相机运动估计模块、边界框回归模块、重检测模块和更新模块。

相机运动估计模块对局部追踪器运动做补偿，然后边界框回归模块来找到一个精准的边框。如果目标丢失了，我们用重检测模块来重新找到目标。我们还利用更新模块来滤掉不靠谱的采样。

多个测试实验证明了我们的框架的有效性和普适性。

问题描述

目标追踪是计算机视觉中的重要任务之一。给定一个视频序列和随意一个目标的初始状态，目标追踪的目的是预测每一帧中物体的位置和尺寸。

最近目标追踪取得了很大的进展，学者们提出了很多出色的追踪器：

SuperDiMP结合了PrDiMP的边界框回归和DiMP的标准化分类器，达到了较好的鲁棒性和尺寸估计能力。
LTMU则提出了一个元更新器，来控制在线短期跟踪器的更新。它避免了长视频中目标频繁消失导致有用外观信息被污染的问题。
JMMAC同时建模了动作和外观，解决了视频中突然抖动(sudden shaking)的问题。

上述方法都在不断解决视频序列中的各种挑战。

然而，还有一些问题尚未解决，尤其是无人机的追踪中有很多问题没解决。比如相机的运动、物体不在视野里、剧烈的尺度变化等等。

本文提出的方法

为了解决尚未解决的问题，本文提出了一个通用框架，如Figure-2所示。

在这里插入图片描述

首先，本文设计了一个相机动作估计模块，其可以重置局部追踪器的搜索区域，来解决相机突然运动的问题。其次，我们采用了边界框细化模块，来细化局部追踪器的输出，从而更有效地估计目标尺寸。然后，我们提出了重检测模块，来解决目标消失的问题。最后，我们采用更新模块，来控制追踪器的线上更新。

相机动作估计模块-CME

本模块的目的是基于图像配准来重置局部跟踪器的区域，其中参考帧的搜索区域映射到当前帧。由于三维太复杂，我们简化为二维。

首先，我们提取参考帧和当前帧的尺度不变特征变换(SIFT)。从之前10帧中选择合适的图片，作为参考帧。多提一句，由于重检测模块输出不连续的目标轨迹，我们删除了那些用到全局追踪器结果作为最终结果的帧。

其次，我们匹配关键点，然后用一个变换矩阵O来建模相机的动作。

在这里插入图片描述

最后，参考帧的搜索区域被O映射到当前帧，Figure 3提供了基于CME搜索区域的映射示意图。当前帧的搜索区域Rt公式如下：
$R_t=T(R_{t_r};O)$
如此，CME保障了局部追踪器中的稳定搜索区域。

边界框细化模块-BBR

我们用SuperDiMP作为局部跟踪器，然后用DiMP的分类器和PrDiMP的边界框回归。然而，边界框并不能精确地圈出物体，所以我们提出了两阶段跟踪策略：粗糙定位+边界框细化。因为Alpha-Refine是一个不错的细化模型，因此本文的BBR模块使用Alpha-Refine Module。

在这里插入图片描述

如Figure 4所示，BBR可以被分为4步：

将局部追踪器的粗糙结果扩展为同心搜索区域
用一个骨干参数共享的网络从获得的搜索框搜索区域和第一帧的模板区域里提取特征
用特征融合层将获得的特征融合(获得的+模板的)
用边界框回归器将边界框和融合特征图回归

重检测模块-RD

当目标跑出画面或背景杂乱无章时，局部追踪器难以再检测到目标。此时就需要RD来重新定位目标。然而，当且仅当物体跑出画面的时候重定位才是合理的，如何避免不需重定位时瞎重定位呢？我们采用MDNet作为验证器。验证器在每帧都会评价当前局部追踪器给出结果的准确性并给出评分，如果评分连续5帧都低于某一阈值，就启动RD。

当RD启动，我们用Global Track方法来给出可能的候选框。Global Track是一个全局物体搜索方法，不带有任何的局部偏好。具体而言，一个网络会提取模板帧的特征&&全局的特征，然后用卷积算子来生成和模板匹配的候选对象。然后一个带有目标目的的RCNN网络对获得的候选框分类回归，获得TOP-K候选框。(K=5 in this experiment)

我们通过一些先验信息来淘汰掉一些候选框，然后每个候选框被验证器打一个置信度分数。置信度最高的框最终输出。一旦RD给出了一个结果，我们就重置局部追踪器的搜索区域。

更新模块-MU

在我们的框架中，局部追踪器和验证器需要时不时地更新。我们采用Meta-Updater作为MU，在每帧都会告知追踪器是否需要更新。MU考虑了当前的可判别性、几何和外观线索。

Meta-Updater

将级联LSTM模块的重要线索编码为向量非常重要。

对于几何线索，MU利用边界框的时间变化来代表目标的动作信息，第t帧的边界框标为bt。对于可判别性线索，MU用局部追踪器第t帧的response map(Mt)来表示差别信息。
$s_t^C=max(M_t)\\ v_t^R=f^R(M_t;W^R)$
其中s、v分别代表置信度分数&response vector。而外观得分是由模板目标I0和第t帧目标It的差距得到的：
$s_t^A=||f^A(I_t,W_A)-f^A(I_0,W_A)||_F$
其中f(.;W)是基于ResNet50的CNN模型，有参数W。