High-Performance Long-Term Tracking with Meta-Updater 阅读

最新推荐文章于 2022-09-04 10:26:39 发布

塔楼

最新推荐文章于 2022-09-04 10:26:39 发布

阅读量300

点赞数

分类专栏：计算机视觉/目标跟踪/目标检测文章标签：深度学习

本文链接：https://blog.csdn.net/qq_28915885/article/details/120027972

版权

计算机视觉/目标跟踪/目标检测专栏收录该内容

12 篇文章 0 订阅

订阅专栏

High-Performance Long-Term Tracking with Meta-Updater

问题

长时跟踪没有利用在线更新的优势；
引入在线更新到长时跟踪很危险，因为长时跟踪存在长时的不确定性和噪声观测；

方案

引入Meta-Updater解决上述问题；
判断在当前帧跟踪时，跟踪器是否准备更新，由此过滤长时跟踪中的噪声样本，使用更加准确的样本进行更新；

实现

整体框架

其中，local tracker为短时的局部跟踪器，此处使用ATOM。局部跟踪结果得到之后，放入MetaUpdater中进行判断是否需要更新外观模型. Verifier评估当前跟踪结果的正确性，如果验证得分大于设定阈值，跟踪器将持续进行局部跟踪；如果不正确，则使用faster-RCNN检测所有的可能候选区域，并且剪切出来，放入局部跟踪器输出对应的候选bbox；这些bbox被送入验证器中验证是否存在该目标，如果存在，则使用当前的目标外观重置局部跟踪器；在进入下一帧之前，将历史收集起来送入MetaUpdater中，以引导在线跟踪器的更新；
MetaUpdater
- Sequential Information
  
  记在线跟踪器为 $\tau$ ，第 $t$ 帧的响应图记为 $R_t$ ，输出的bbox记为 $b_t$ ，根据 $b_t$ crop出来的图像记为 $I_t$ ，第一帧的外观模型记为 $I_0$ 。如下图所示：
  
  通过挖掘一个时间段的序列信息，整合几何、判别和外观信息来建立MU模型；
- Geometric Cue
  - 输出的 $b_t=[x_t,y_t,w_t,h_t]$ ，其中(x,y)表示左上角的坐标，(w,h)表示目标的长宽；
  - 一个时间段的bbox则包含了目标的运动信息，如速度、加速度、尺度变化等；
  - 因此将一个时间段的bbox作为集合信息输入MU；
- Discriminative Cue
  - 定义置信度得分 $s_t^C$ 为 $R_t$ 的最大值， $s_t^C=max(R^t)$ ；
  - 由下图可以看出，置信度得分并不稳定，所以利用CNN挖掘响应图中的信息，得到响应向量 $v_t^R=f^R(R_t;W^R)$ ，f表示CNN，W表示CNN的参数。使用v编码当前帧的在跟踪器中的可靠信息，用于后续的序列模型挖掘目标的可靠信息；
- Appearance Cue
  - 由于在线更新时带有噪声样本，使得响应对外观的变化不敏感，故直接使用跟踪器的输出作为评价跟踪器好坏的标准不可靠；
  - 使用模板匹配的方式，获得外观得分 $s_t^A=||f^A(I_t;W^A)-f^A(I_0;W^A)||_2$ ，将target和候选目标嵌入到欧氏空间中进行判别， $W$ 为离线训练的函数 $f$ 的参数， $s^A$ 度量了跟踪结果 $I_t$ 和目标的模板 $I_0$ 之间的距离。这样的模板匹配策略不影响噪声观测；
- Sequential Information.
  - 将以上提到的几何信息、判别信息、外观信息整合进一个序列矩阵 $X_t=[x_{t-t_s+1};...;x_{t-1};x_{t}]\in R^{d\times t_s}$ ，其中 $x_t\in R^{d\times 1}$ ，其集中了 $ss_t^C,V_t^R,s_t^A,b_t$ 等信息， $t_s$ 为平衡历史经验和当前观测的时间步长。 $X_t$ 这一序列信息最终送入级联的LSTM中进行信息的挖掘；
- Cascaded LSTM
- LSTM公式如下：
- 使用三个级联的LSTM对历史信息进行挖掘
- 将 $X_t$ 送入级联的LSTM中，最后为两个全连接层+二分类，给出是否更新外观模型；
- Meta-Updater Training
  - 采样：首先，在不同的训练视频序列上运行局部跟踪器，记录所有帧的跟踪结果；
  - 将这些结果划分为一系列的时间片，表示为 $Y=\{Y_t^v|_{t=t_s}^{t_v}\}|_{v=1}^V$ ， $v$ 为视频序列索引， $V$ 为训练序列的数量， $t_v$ 为第 $v$ 个视频序列的长度，其中 $Y_t^v=\{y_{t-t_s+1},...,y_{t-1}^v,y_t^v\}$ ，每一个时间slice $y_t^v$ 包含当前第 $t$ 帧的bbox，响应图，响应得分，预测得到的目标图像；
  - $Y_t^v$ 的标签为：
  - Model Training
    
    局部跟踪器（短时跟踪器）和MU是紧密耦合的，局部跟踪器通过影响样本收集过程来训练MU； $k$ 表示k此迭代，一般 $k = 3$ ；
- 实现*细节
  - 匹配网络 $f^A$ ：ResNet50，输入为 $107\times 107的图像块$ ；在GT周围随机采样，IOU大于0.7的作为正样本；使用来自SiamRPN为基础的网络得到的置信度较高但不属于目标的样本作为负样本；
  - $f^R$ ： $50\times 50$ 的响应图作为输入，经过两层卷积层+全局平均池化，得到 $1\times 1\times 8$ 的向量作为后续输入；
  - 带有全连接层的级联LSTM：每个LSTM cell有64个units， $t_s,t_1,t_2$ 分别为20，8，3，遗忘bias设置为1.0，输出64个units送入全连接层，最终得到binary value判断是否更新;
polo

塔楼

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
High-Performance Long-Term Tracking with Meta-Updater 阅读

**High-Performance Long-Term Tracking with Meta-Updater**问题方案实现问题长时跟踪没有利用在线更新的优势；引入在线更新到长时跟踪很危险，因为长时跟踪存在长时的不确定性和噪声观测；方案引入Meta-Updater解决上述问题；判断在当前帧跟踪时，跟踪器是否准备更新，由此过滤长时跟踪中的噪声样本，使用更加准确的样本进行更新；实现整体框架其中，local tracker为短时的局部跟踪器，此处使用ATOM。局部跟踪结果得到之后
复制链接

扫一扫