论文阅读:CTRL: Surpassing Human Performance in Offline LiDAR based 3D Object Detection

目录

概要

Motivation

整体架构流程

技术细节

Base Detector

Tracking

Track-Centric Learning

小结


论文地址:[2304.12315] Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection (arxiv.org)

代码地址:GitHub - tusen-ai/SST: Codes for “Fully Sparse 3D Object Detection” & “Embracing Single Stride 3D Object Detector with Sparse Transformer”

概要

    该论文旨在实现高性能的基于离线 LiDAR 的 3D 目标检测。通常经验丰富的人工注释者以轨道为中心的角度注释对象,先在轨迹中标记形状清晰的对象,然后利用时间相干性来推断模糊对象的注释。受此启发,作者提出了一种以轨道为中心的的高性能离线检测器,而不是传统的以对象为中心的视角。该方法具有双向跟踪模块和以轨道为中心的学习模块。这样的设计允许检测器在某个时刻检测到对象后推断和细化一个完整的轨道。此特征被命名为“onCe detected, neveR Lost”,将提议的系统 CTRL 命名为名称,即使检测到的物体在某些时间步骤中没有足够的点云数据,也可以利用该物体的时间序列信息来推断其位置和姿态,从而提高目标检测的准确性。

  1. 准确标记观察到的轨迹;
  2. 对于仅包含少量高质量帧的轨道,检测器将高质量帧中的预测传播到低质量帧。

    方案的关键是跟踪一个物体的时间序列,并将其表示为一个轨迹。该轨迹包含了该物体在不同时间步骤中的位置和姿态信息,可以用来提高目标检测的性能。具体来说,提出了一个高效的跟踪模块和一个跟踪特征提取模块来提高跟踪的准确性和效率。 

    大量的实验表明,该方法在竞争激烈的Waymo开放数据集中,在没有模型集成的情况下,超过了人类水平的注释精度和之前最先进的方法。

Motivation

运动状态对所有轨迹进行分区,并分别为动态轨迹和静态轨迹设计了两种不同的管道。一方面,这样的分区减少了训练数据的多样性,从而阻碍了泛化。另一方面,一些类别可能具有不稳定的运动状态,例如行人。

在Immortal track中过早的终止tracklet是导致id switch现象的主要原因。

整体架构流程

    CTRL的整体架构。

  1. 利用基检测器生成基本检测结果。
  2. 在双向跟踪模块中,首先应用前向跟踪过程来填充缺失的框并将轨迹扩展到未来,由红色箭头表示。然后回溯到起始帧并将轨道扩展到过去,用蓝色箭头表示。
  3. 将双向扩展轨道发送到以轨道为中心的学习模块中进行细化。

技术细节

Base Detector

    使用FSD模型做为base detector,在其基础上做了一些改进:作为线下系统,在使用多帧策略的时候添加了未来帧的信息。为了想不增加计算复杂度的同时获取更长时间段的信息,使用了frame-skipping的策略。即隔一帧,添加一帧。为了防止过拟合,使用frame dropout strategy,有一半的frame会有20%的几率被dropout。

(PS:也可以用任何的其他检测器,或者多模型做ensemble)

Tracking

    Tracking 模块采用了 Immotal Tracker, 并且做了forward tracking 和 backward tracking, 然后再将正反匹配的两次轨迹去重和组合,这个地方的核心目的是尽可能得到完整的连续轨迹。

    在Immortal track中发现过早的终止tracklet是早成id switch现象的主要原因,因此提出了Immortal track,即解除了tracker的生存周期的限制。即使kf连续匹配不到观测,仍然保留kf。这样可以使一些由于遮挡导致track id变化的两条或多条track重新连接成一条tracklet。对与kf的生存周期,发现延长max_age的值可以不断减少mismatch,因此可直接设置成immotal track,而且从整体实验结果来看也并没有降低mota,motp的指标。对于初始化kalman filter,论文有考虑增加一些限制,以减少fp也会生成kf的造成的影响。

Track-Centric Learning

    Track-Centric Learning 是这篇论文的核心,和前作相比,有三个核心点:

(该内容来自:数据闭环的核心 - Auto-labeling 方案分享 V2.0 - 知乎 (zhihu.com)

  • MIMO(Multi Input Multi Ouput): 3DAL 是Multi input Single output, 这个会造成一个问题就是前后的尺寸不连续, 人类标注员在标注的时候,一般都会选择整个物体序列中点云比较好的时刻,确定尺寸,然后确保全时序尺寸一致,这个标注在实际中也是非常重要的,如果时序尺寸不一致,对训练出来的结果尺寸前后容易跳变
  • 动态静态不分类,前作中对于物体动态静态先做了分类,然后单独处理。 本文中,觉得没有必要,反而减少了物体的多样性,阻碍了数据的泛化。 比如物体低速运动,或者一个人转圈啥的。 所以在流水线中统一处理,大大简化了流程 (不过这个点,我们在实操过程中发现,如果物体是静态的,定位比较准确的话,直接使用世界坐标系插值会更加准确,基本都可以达到0.9甚至0.95以上的IOU,如果refine容易让物体的IOU反而有一点下降)
  • 设计了 full sequence track iou 来做轨迹的第一阶段匹配, 二阶段匹配再做轨迹内部的gt和proposal的关联,这样可以减少误匹配,鼓励更加高质量的IOU的Proposal作为正样本,并且具有时序连续性,让模型往整体轨迹最优的方向去做优化。

小结

    这篇文章旨在验证一个人类注释行为的学科假设,即人类注释员在标注过程中通常利用对象的时间运动信息来实现精确的标注。基于人类注释者的行为,提出了一个离线检测系统 CTRL,遵循“以轨道为中心”和“一旦检测到,永远不会丢失”。CTRL 提高了自动标记的性能。单模型 CTRL 优于之前最先进的离线检测器和所有在线检测器。值得强调的是,在数百万辆车中,CTRL 只会完全遗漏 0.48% 的车辆。结果表明,在这些情况下,该方法甚至超过了Waymo人工注释者提供的真实准确性。该方法简单干净,大大简化了工作流程,减少了现有离线框架的资源需求。

  这篇论文提出了一种新的离线3D目标检测系统,该系统采用了一种跟踪中心的设计,并具有一个基于跟踪的检测模块和一个跟踪中心的学习模块。该方法能够在不使用测试时增强和模型集成的情况下,轻松地超过人类标注员的性能,并在高端使用情况下甚至超过了人类标注员的准确性。此外,该方法还提出了一种新的跟踪中心的标注方法,能够有效地解决目标检测中的标注歧义问题。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值