【自动驾驶论文阅读笔记——精读RetinaTrack】

最新推荐文章于 2024-09-27 14:43:11 发布

书玮嘎

最新推荐文章于 2024-09-27 14:43:11 发布

阅读量900

点赞数 1

文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/selami/article/details/122394763

版权

[阅读心得] 自动驾驶经典论文——RetinaTrack

写在前面

写在前面

本文提出了一种在RetinaNet上进行调整的多目标跟踪网络RetinaTrack，提出了“将检测和跟踪分离开来
是不必要，二者能相互促进”的观点。总体感觉和JDE比较像，主要的区别改进在于对FPN之后的网络结构的设计。

【论文】RetinaTrack: Online Single Stage Joint Detection and Tracking

1. Abstract

提出了一种专注于自动驾驶领域的多目标跟踪网络，RetinaTrack。该网络基于RetinaNet进行修改，以获得实例级的embedding向量，简洁但有效地将检测任务和跟踪(ReID)任务联合起来。最终，RetinaTrack在自动驾驶数据集Waymo Open上取得了SOTA的性能。

2. Introduction

本章主要讨论了两个问题：
1）联合模型： MOT中检测和跟踪任务经常“手递手”连接且都依赖深度学习网络，但是却很少工作建立将二者联合的模型。作者认为这是由于MOT的主流benchmark,MOT Challenge为了“公平”人为地将两个任务分开了
2）领域选择： 作者选择了自动驾驶领域，因为检测和跟踪恰好都是该领域的重要任务，有意义。另外，在自动驾驶领域速度和精度同等重要。

3. RetinaTrack

在这里插入图片描述

3.1 Overview

RetinaTrack的整体结构如上图所示，整个网络的输出是检测结果(location+classfication)和跟踪结果(ReId embeddings)。其以目标检测网络RetinaNet为原型，其结构主要分为FPN和post-FPN部分，而本工作的主要改动在post-FPN部分，其改动的主要目的是能够适应跟踪任务的instance level embeddings形式的输出。

3.2 RetinaNet

首先，之所以选择RetinaNet作为基础进行改进，是因为RetinaNet网络本身适合自动驾驶场景下的多目标跟踪任务：1）满足实时性；2）精度达到SOTA；3）结构设计对小目标友好
在这里插入图片描述
RetinaNet的基本结构如图所示，原图先输入FPN中，提取不同的Feature Map层 $F_i$ ，每个 $F_i$ 输入进对应的post-FPN环节，存在两个并行的通道分别对class和boxes进行学习，每个任务有K组输出对应K个anchor。
公式如下：