ATOM阅读笔记

最新推荐文章于 2023-04-15 16:45:12 发布

DL小白123

最新推荐文章于 2023-04-15 16:45:12 发布

阅读量148

点赞数 1

文章标签：机器学习深度学习算法

本文链接：https://blog.csdn.net/qq_41434501/article/details/129737262

版权

ATOM是一种新型的目标跟踪框架，它由目标估计和分类两部分组成。通过引入IoU-Net改进目标估计，使用深度回归网络进行在线训练优化目标分类。在TrackingNet数据集上，ATOM相比现有方法有显著提升，同时保持超过30FPS的运行速度。这种方法通过分离目标定位和形状估计，实现更准确的跟踪效果。

摘要由CSDN通过智能技术生成

ATOM：Accurate Tracking by Overlap Maximization

动机：

目前，目标跟踪领域的研究重点集中于分类准确度，这导致目标分类效果好的模型，目标估计（target state estimation）低于预期，相反一些以前的模型能够获得更好的目标估计效果，但这些模型的目标分类效果差。

主要贡献：

本文提出了一种新颖的跟踪架构，由目标估计和目标分类两部分组成。
在目标估计网络部分引入了IoU-Net（出自ECCV2018），使损失更加合理。
目标分类网络使用深度回归网络，由两个全卷积层组成，并提出新的专用在线训练的优化算法。
在新的大型TrackingNet数据集上，ATOM相对于之前的最佳方法实现了15％的相对增益，同时运行速度超过30 FPS。

网络结构：

将目标跟踪划分为了目标定位和形状估计两个子任务，并提出了两个模块来实现。分别为一个离线训练的目标估计模块，一个在线训练的目标分类（定位）模块。这两个任务被融合进了一个统一的网络结构。如下图：
在这里插入图片描述

和siamese network结构类似，上面是reference branch，也就是目标模板的分支，下面是test branch，也就是当前帧的分支。和基于siamese network的tracking不一样的是，在模板分支，最后生成的并不是一个feature map，而是在经过backbone提取特征之后，将特征经过"IoU Modulation"模块编码成了一个“调制向量”，用于后面每一帧bounding box的iou预测。test分支中，当前帧的图像经过backbone后分成了一个分类分支和一个iou预测分支，分类分支用于初步定位目标，得到初始的bounding box。iou预测分支结合前面生成的调制向量，推断bounding box的iou，并经过反向传播，优化bounding box使得iou最大化，以此得到精细的预测框。
橙色的resnet-18直接使用预训练模型，不经过fine-tune；蓝色的模块为目标估计模块，是经过线下训练得到的；绿色的为在线训练的目标分类模块，也就是说在tracking的时候才进行训练。

目标估计模块使用了iou-net的最大化iou来调整bounding box。网络结构如下：
在这里插入图片描述

这个网络其实就是整体结构图去除了test branch的分类分支。其推断流程大致如下：

reference branch通过resnet-18作为backbone提取特征，然后对目标区域进行PrPool (iou-net里的)，最后通过全连接层编码成两个modulation vector。这里只需要进行一次，也就是初始化的时候需要，后面推断的时候就只需要用到保存下来的modulation vector了。
test brach也是先用resnet-18对当前帧提取特征，而后对bounding box进行PrPool得到固定尺寸的特征图。这里的bounding box是classifier那边得来的一个大概的框。
使用reference branch生成的两个vector分别对两个特征图进行channel-wise multiplication，也就相当于channel维度上的attention。
通过几个全连接层得到预测的iou。
对iou求bounding box的梯度，经过几次迭代，调整bounding box最大化iou，得到精细的预测框。

前面讲的模块的作用是输入一个粗糙的bounding box，通过iou分支优化，得到精细的预测框。但是这个粗糙的bounding box怎么来的呢，也就是文章的另一个主要部分，目标分类（粗定位），如下图的红色框部分。
在这里插入图片描述

这里的classifier是一个两层的全卷积网络，通过这个分类头，输出一个置信度图，即可确定目标的大致位置。这里的classifier是在线训练的，也就是在做tracking的时候才临时训练的。
因为tracking是一个target-specific的任务而不是class-specific的任务，他没有预定义的类别，而只有实体的概念，跟踪的类别是可以任意的。

Tracking流程：

对于第一帧，模板分支产生调制向量，快速训练classifier。
对于当前帧，提取特征，经过classifier确定位置，再结合前一帧的bounding box形状，生成当前帧的初始bounding box。
将bounding box传入iou predictor产生预测的iou。
通过最大化iou，来优化bounding box，经过几次迭代产生当前帧的预测框。
预测下一帧，至步骤2
步骤2中，作者发现根据位置信息，结合随机的形状生成的多个初始化bounding box能够更好的避免局部最优。这样，也就是通过优化多个bounding box，并取出iou最高的三个bounding box，取平均得到最后的预测。

总结：

提出了一种新颖的跟踪架构，其中包含用于目标估计和分类的显式组件。估计组件在大规模数据集上进行离线训练，以预测目标和边界框估计之间的 IoU 重叠。我们的架构通过执行特征调制来集成目标特定的知识。分类组件由两层全卷积网络头组成，并使用专门的优化方法进行在线训练。在四个跟踪基准上进行了综合实验。我们的方法提供了准确的目标估计，同时对场景中的干扰对象具有鲁棒性，在所有四个数据集上的性能都优于以前的方法。

DL小白123

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ATOM阅读笔记

提出了一种新颖的跟踪架构，其中包含用于目标估计和分类的显式组件。估计组件在大规模数据集上进行离线训练，以预测目标和边界框估计之间的 IoU 重叠。我们的架构通过执行特征调制来集成目标特定的知识。分类组件由两层全卷积网络头组成，并使用专门的优化方法进行在线训练。在四个跟踪基准上进行了综合实验。我们的方法提供了准确的目标估计，同时对场景中的干扰对象具有鲁棒性，在所有四个数据集上的性能都优于以前的方法。
复制链接

扫一扫