背景
CVPR 2023 openlane 拓扑比赛第一名解决方案:
openLane 的四个子任务:
中心线检测,交通元素检测,中心线和中心线的 拓扑,中心线 和 交通元素的拓扑 预测
使用 PETRv2 检测中心线,YOLOv8 检测交通元素,设计了一个简单有效的 基于 mlp 的 head 用于 拓扑预测。
车道中心线检测
使用 PETRv2 检测中心线,修改了 query 表征用于 从中心线的检测。
中心线的表征:使用 transformer 的 decoder 预测 bezier 曲线的 3D 控制点。
query的生成:随件初始化 N 个 lane query,每个lane包括一个 3D控制点,然后对每一个点重复 M 次,最后把这 M 个点 flatten 送进 decoder。
交通元素检测
交通元素检测,使用了 yolov8,使用了几种提升性能的策略:
- 数据增强:数据集中缺乏前景样本,采用了 一些 mixup , augmentation ,color gamut on HSV。
- 调整分类 loss 的权重:对于交通信号的定位较准,但分类性能不佳,所以调整了困难样本分类loss 的权重
- 重采样困难样本:一些类别在数据集中的数量较少,所以重新采样了 视频帧。
- 伪标签:数据集中,当交通元素刚出现在视频中时,尺寸较小,是没有标注的。使用模型生成伪标签可以提升性能。
- 测试时的增强,将图像 resize道不同的尺寸测试,大尺寸的图像可以提升小目标检测的性能,小尺寸的图像可以提升大尺寸目标的性能。
Lane-Lane Topolog
最后一层 decoded 特征
预测的 lane 坐标,送入 mlp 生成 和 decoded 特征 相同 shape 的特征,
将两个特征 contact 到一起,然后在送入一个 mlp 生成topology 表示
Lane-Traffic topology
直接使用 yolov8 的输出作为输入,将每个 坐标,类别,置信度 concat 到一起,然后投影成 C维的特征向量,输出的 size 为 T x C(根据来看 旷视 知乎 官方号发表的文章来看,这里应该是一个 detr head),lane-traffic 的 topology 特征 NxTxC, 最后也是使用一个 mlp 得到结果