CVPR2020 | 谷歌提出多目标(车辆)跟踪与检测框架 RetinaTrack

最新推荐文章于 2024-05-21 09:47:36 发布

我爱计算机视觉

最新推荐文章于 2024-05-21 09:47:36 发布

阅读量1.7k

点赞数 1

本文原载知乎，经作者授权转载，请勿二次转载。

https://zhuanlan.zhihu.com/p/127115290

RetinaTrack

论文题目：RetinaTrack: Online Single Stage Joint Detection and Tracking
作者：全部来自谷歌
备注： Waymo 39.12 MOTA, 14FPS

RetinaTrack 也是同之前的联合检测和跟踪的算法一样的框架，从名字也知道是基于 RetinaNet 的，但是论文中是以自动驾驶为背景进行介绍的，没有在MOT Challenge赛道比拼，倒是跟 Tracktor++ 进行了比较。

首先我们回顾一下 RetinaNet 的结构：

整体来看，我们可以讲其归纳为三个特点：FPN、focal loss、回归和分类的两个分支。看看RetinaTrack的架构：

直接从图上看的话我们可以得到的信息是，RetinaNet在分类和回归的分支上分别预测了k个anchor下的分类和回归信息。

而 RetinaTrack 与 JDE 和 FairMOT 一样，都增加了一个256维的特征信息embeddings分支：

我们都知道，在MOT场景中需要解决严重遮挡问题，这个问题对于检测的影响也很大，比如：

上图中两辆车的中心重合，二者的检测框如果都是基于同一个anchor点进行预测的，则很难得到具有分辨力的embeddings。

另外，ReID和目标检测在特征方面的需求不同，以行人检索为例，目标检测中分类要求同类目标特征一致，而ReID则是要求在保证类内距离尽可能小的同时，确保类间距离大，但是这里的类间指的是不同身份的人，但是对于目标检测而言都是人。

所以这里将ReID和分类的共享特征减少是最好的选择，作者这里实际上隐含着用了三种方式改进这一点：

1）通过将分类、回归和特征提取设为三个分支任务，除了FPN之前的部分，三者的特征共享部分含有m1个3x3卷积；

2）对于每层特征图上每个特征点的k个anchor，全部预测分类、回归和特征，增加区分度。；

3）对于检测任务，分类和回归分支都包含m2个3x3卷积，而embedding分支则为m3个1x1卷积。

对于训练部分，不同于JDE和 FairMOT 采用的 identification 模式，RetinaTrack 采用的是 verification 模式，采用基于 batch-hard 的 triplet loss进行训练，其中margin为0.1。

以上任务是在一堆TPU上训练的，基于 Momentum SGD算法，每个batch还有128个clips，每个clip含两个相隔8帧的样本（对于10Hz的Waymo数据集而言就是相隔0.8s），图像输入是1024x1024，并采用bfloat16式的混合精度训练模式。其中去除embeddings分支的部分是在COCO数据集上预训练的，然后采用warmup和余弦退火学习策略训练。

实验效果如下：

由消融实验可知，anchor类型数量越多效果越好，其中RetinaNet部分是直接通过IOU进行数据关联的。紧接着作者又做了几组对比实验：

对比 MOT Challenge 中表现良好的 Tracktor++ 算法，RetinaTrack 效果更好；

基于 IOU，不采用 triplet loss（这是直接做成 identification 了？），或者将特征分支单独利用resnet50训练这两种方法都不如 RetinaTrack。

在 Waymo v1.1 数据集上 MOTA 可达 44.92，mAP 可达 45.70，推理速度为70ms。

论文地址：
https://arxiv.org/abs/2003.13870
目前还未发现该文有开源代码。
在我爱计算机视觉公众号后台回复“RetinaTrack”即可收到论文下载。

参考文献：

RetinaTrack: Online Single Stage Joint Detection and Tracking
https://zhuanlan.zhihu.com/p/125395219
https://zhuanlan.zhihu.com/p/126558285
https://zhuanlan.zhihu.com/p/126359766

END

备注：跟踪

目标跟踪交流群

目标跟踪、视觉跟踪等更多最新技术，

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

我爱计算机视觉

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
CVPR2020 | 谷歌提出多目标(车辆)跟踪与检测框架 RetinaTrack

本文原载知乎，经作者授权转载，请勿二次转载。https://zhuanlan.zhihu.com/p/127115290RetinaTrack论文题目：RetinaTrack: Onli...
复制链接

扫一扫