ATOM阅读笔记

ATOM是一种新型的目标跟踪框架,它由目标估计和分类两部分组成。通过引入IoU-Net改进目标估计,使用深度回归网络进行在线训练优化目标分类。在TrackingNet数据集上,ATOM相比现有方法有显著提升,同时保持超过30FPS的运行速度。这种方法通过分离目标定位和形状估计,实现更准确的跟踪效果。
摘要由CSDN通过智能技术生成

ATOM:Accurate Tracking by Overlap Maximization

动机:

目前,目标跟踪领域的研究重点集中于分类准确度,这导致目标分类效果好的模型,目标估计(target state estimation)低于预期,相反一些以前的模型能够获得更好的目标估计效果,但这些模型的目标分类效果差。

主要贡献:

  1. 本文提出了一种新颖的跟踪架构,由目标估计和目标分类两部分组成。
  2. 在目标估计网络部分引入了IoU-Net(出自ECCV2018),使损失更加合理。
  3. 目标分类网络使用深度回归网络,由两个全卷积层组成,并提出新的专用在线训练的优化算法。
  4. 在新的大型TrackingNet数据集上,ATOM相对于之前的最佳方法实现了15%的相对增益,同时运行速度超过30 FPS。

网络结构:

将目标跟踪划分为了目标定位和形状估计两个子任务,并提出了两个模块来实现。分别为一个离线训练的目标估计模块,一个在线训练的目标分类(定位)模块。这两个任务被融合进了一个统一的网络结构。如下图:
在这里插入图片描述

和siamese network结构类似,上面是reference branch,也就是目标模板的分支,下面是test branch,也就是当前帧的分支。和基于siamese network的tracking不一样的是,在模板分支,最后生成的并不是一个feature map,而是在经过backbone提取特征之后,将特征经过"IoU Modulation"模块编码成了一个“调制向量”,用于后面每一帧bounding box的iou预测。test分支中,当前帧的图像经过backbone后分成了一个分类分支和一个iou预测分支,分类分支用于初步定位目标,得到初始的bounding box。iou预测分支结合前面生成的调制向量,推断bounding box的iou,并经过反向传播,优化bounding box使得iou最大化,以此得到精细的预测框。
橙色的resnet-18直接使用预训练模型,不经过fine-tune;蓝色的模块为目标估计模块,是经过线下训练得到的;绿色的为在线训练的目标分类模块,也就是说在tracking的时候才进行训练。

目标估计模块使用了iou-net的最大化iou来调整bounding box。网络结构如下:
在这里插入图片描述

这个网络其实就是整体结构图去除了test branch的分类分支。其推断流程大致如下:

  1. reference branch通过resnet-18作为backbone提取特征,然后对目标区域进行PrPool (iou-net里的),最后通过全连接层编码成两个modulation vector。这里只需要进行一次,也就是初始化的时候需要,后面推断的时候就只需要用到保存下来的modulation vector了。
  2. test brach也是先用resnet-18对当前帧提取特征,而后对bounding box进行PrPool得到固定尺寸的特征图。这里的bounding box是classifier那边得来的一个大概的框。
  3. 使用reference branch生成的两个vector分别对两个特征图进行channel-wise multiplication,也就相当于channel维度上的attention。
  4. 通过几个全连接层得到预测的iou。
  5. 对iou求bounding box的梯度,经过几次迭代,调整bounding box最大化iou,得到精细的预测框。

前面讲的模块的作用是输入一个粗糙的bounding box,通过iou分支优化,得到精细的预测框。但是这个粗糙的bounding box怎么来的呢,也就是文章的另一个主要部分,目标分类(粗定位),如下图的红色框部分。
在这里插入图片描述

这里的classifier是一个两层的全卷积网络,通过这个分类头,输出一个置信度图,即可确定目标的大致位置。这里的classifier是在线训练的,也就是在做tracking的时候才临时训练的。
因为tracking是一个target-specific的任务而不是class-specific的任务,他没有预定义的类别,而只有实体的概念,跟踪的类别是可以任意的。

Tracking流程:

  1. 对于第一帧,模板分支产生调制向量,快速训练classifier。
  2. 对于当前帧,提取特征,经过classifier确定位置,再结合前一帧的bounding box形状,生成当前帧的初始bounding box。
  3. 将bounding box传入iou predictor产生预测的iou。
  4. 通过最大化iou,来优化bounding box,经过几次迭代产生当前帧的预测框。
  5. 预测下一帧,至步骤2
    步骤2中,作者发现根据位置信息,结合随机的形状生成的多个初始化bounding box能够更好的避免局部最优。这样,也就是通过优化多个bounding box,并取出iou最高的三个bounding box,取平均得到最后的预测。

总结:

提出了一种新颖的跟踪架构,其中包含用于目标估计和分类的显式组件。估计组件在大规模数据集上进行离线训练,以预测目标和边界框估计之间的 IoU 重叠。我们的架构通过执行特征调制来集成目标特定的知识。分类组件由两层全卷积网络头组成,并使用专门的优化方法进行在线训练。在四个跟踪基准上进行了综合实验。我们的方法提供了准确的目标估计,同时对场景中的干扰对象具有鲁棒性,在所有四个数据集上的性能都优于以前的方法。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值