Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析

最新推荐文章于 2024-12-24 14:46:32 发布

PaperWeekly

最新推荐文章于 2024-12-24 14:46:32 发布

阅读量2.9k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/107117858

版权

本文分析了地平线公司在Waymo Open Dataset Challenges 2020中获得2D/3D检测和跟踪赛道冠军的解决方案，包括HorizonDet（2D检测）、AFDet（3D检测）和HorizonMOT（2D/3D跟踪）。地平线团队采用了模型ensemble、训练策略优化和数据增强等技术，如Cascade R-CNN与CenterNet的结合，以及TTF训练策略。此外，他们还利用了PointPillars和复杂的3D特征提取器来增强点云编码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者｜黄飘

学校｜华中科技大学硕士

研究方向｜多目标跟踪

随着最近 Waymo Open Dataset Challenges 2020 的落幕，其中关于 2D/3D 目标检测和跟踪赛道的部分冠亚军解决方案也都公布了，由于我只看到了地平线发布的论文，所以就只分析他们公司在这次比赛中的解决方案。

PS：地平线在 Waymo 2020 中获得了 3D 检测、2D/3D 跟踪和域自适应性赛道冠军，2D 检测赛道亚军。

HorizonDet

论文标题：2nd Place Solution for Waymo Open Dataset Challenge - 2D Object Detection

论文链接：https://arxiv.org/abs/2006.15507

一般检测竞赛的算法技术报告中，榜前的方法都是各种算法 ensemble 的，比如多种检测算法结合，又比如多种 nms 方式的结合等。

1.1 模型选择

地平线这次在 Waymo 2020 的 2D 检测赛道获得了第二名，也同样用到了模型 ensemble 的方式。对于检测算法，他们团队考虑到两阶段算法和单阶段 anchor-free 算法在检测结果多样性方面的互补，以及 anchor-free 算法在拥挤、小目标场景下更好的效果，选用了 Cascade R-CNN 和 CenterNet 的结合。

其中 CenterNet 部分，采用了两组 Hourglass104 网络作为 backbone，其中第一组的输出只在训练的时候为提供 auxilliary loss，具体见下图。

1.2 训练策略

另外，还引入了 AAAI 2020 中针对 CenterNet 这类算法框架提出的训练策略改进 TTF [2]，为了提供更多高质量的正样本。由于 CenterNet 所采用的高斯核只考虑了中心点和与之距离的因素，在 x,y 方向共用一组标准差，生成了圆形的高斯 mask：

而 TTF 中则是考虑到了目标的 aspect ratio，提出了多样的标准差：

上述的这种只是对中心点回归训练的改进，接下来是对目标框宽高的回归的改进。原始的 CenterNet 假设预测得到的中心点绝对准确，所以可以通过宽高得到最终的目标框。但是 TTF 默认预测得到中心点不一定准确，所以预测的是中心点距离两个角点的 offset：

对于 anchor 的设定则是在原始的 0.5,1,2 基础上，考虑到车辆，加入了 0.25 和 0.75 两种 aspect ratio。与此同时，考虑到部分标注错误，还加入了 label smoothing。

1.3 模型ensemble

接下来就是模型 ensemble了，除了 Cascade RCNN 和 CenterTrack 的结合，还考虑到了不同尺度输入策略（对于前者选取了 0.8,1.0,1.2 三种尺度，对于后者选取了 0.5,0.75,1,1.25,1.5 五种尺度），当然还有不同训练代数、策略下不同的模型，还有不同后处理的结果。

作者团队将不同检测框架和不同推理策略进行组合，通过二叉树来构建贪婪式的自动 ensemble 框架：