😸论文(
CVPR2022 Oral)主要贡献:
- 提出第一个涂鸦标注(scribble-annotated) 的激光雷达语义分割数据集 ScribbleKITTI
- 提出类范围平衡的自训练(class-range-balanced self-training)来应对伪标签对占据主要数量的类和近距离密集区域的偏好(bias)问题
- 通过金字塔局部语义上下文描述子(pyramid local semantic-context descriptor) 来增强输入的点云,从而提高伪标签的质量
- 通过将第
2和3点与 mean teacher 框架结合,论文提出的 pipeline 可在仅使用8%的标注点下实现95.7%的全监督(fully-supervised)性能
😿密集标注(densely annotating)激光雷达点云开销仍然过大,从而无法跟上不断增长的数据量。目前 3D 语义分割的科研工作主要集中在全监督的方法上,而利用弱监督(weak supervision)来实现有效的 3D 语义分割方法尚未被探索。因此,论文提出了使用涂鸦(scribbles)对激光雷达点云进行标注,并发布了第一个用于 3D 语义分割的涂鸦标注(scribble-annotated)数据集 ScribbleKITTI。但这也导致那些包含边缘信息的未标注(unlabeled)点并未被使用,且由于缺乏大量标注点(该方法只使用 8% 的标注点)的数据,影响了具有长尾分布的类置信度(受到的监督减少了),最终使得模型性能有所下降。
😸因此,论文提出了一个用以减少使用这种弱标注(weak annotations)时出现的性能差距的 pipeline,该 pipeline 由三个独立的部分组成,可以与任何 LiDAR 语义分割模型相结合,论文代码采用 Cylinder3D 模型,若对 Cylinder3D 感兴趣可参考我之前的一篇博客。其在只使用 8% 标注的情况下,可达到 95.7% 的全监督性能。
ScribbleKITTI 数据集

🙀使用涂鸦标注在 2D 语义分割中是一种较为流行且有效的方法,但与 2D 图像不同,3D 点云保留了度量(metric)空间,导致其具有高度的几何结构。为了解决这一问题,论文建议使用更几何化的直线涂鸦(line-scribble)来标注激光雷达点云,与 free-formed 涂鸦相比,直线涂鸦可以更快地标注跨越大距离的几何类(如:道路,人行道等),且直线涂鸦只需要知道这些点(某一类的点云)的起始与结束位置。正如上图汽车(蓝色线条)所示,只需确定两点即可完成标注。这将使原先需要花 1.5-4.5 个小时的标注时间减少到 10-25 分钟。
😸ScribbleKITTI 数据集是基于 SemanticKITTI 的 train-split 部分来标注的。其中,SemanticKITTI 的 train-split 部分包含 10 个 sequences、19130 个 scans、2349 百万个点;而 ScribbleKITTI 只包含 189 百万个标注点。
😿如上面 Figure 3 所示,论文中直线涂鸦主要是将 2D 的线条投影到 3D 表面,这会导致在视角改变时直线涂鸦会变得很模糊(indistinguishable)。
网络结构

- 论文提出的
pipeline可分为training、pseudo-labeling和distillation这三个阶段,这三个阶段紧密联系,提高生成的伪标签质量,从而提高模型的精度 - 在 training 阶段,首先通过 PLS 来对数据进行增强,再训练 mean teacher,这有利于后面生成更高质量的伪标签
- 在 pseudo-labeling 阶段,通过 CRB 来产生目标标签,降低由于点云自身属性降低生成伪标签的质量
- 在 distillation 阶段,通过前面生成的伪标签再对 mean teacher 进行训练
- mean teacher 中 L S L_S LS 和 L U L_U LU 分别对应有标注的点和未标注的点各自的损失
Partial Consistency Loss with Mean Teacher
mean teacher框架由 2 部分组成,分别是权值为 θ \theta θ 的学生网络和权值为 θ E M A \theta^{EMA} θEMA 的教师网络。通常,学生网络的权值通过梯度下降获得,而教师网络的权值则由指数加权平均(exponential moving average)学生的权值获得,其计算公式如下:
θ t E M A = α θ t − 1 E M A + ( 1 − α ) θ t \theta_t^{EMA} = \alpha \theta_{t-1}^{EMA} + (1-\alpha)\theta_t θtEMA=αθt−1EMA+(1−α)θt
✍️其中, θ t \theta_t θt 为第 t t t 步中学生网络的权值, θ t E M A \theta_t^{EMA} θtEMA 为第 t t t 步中教师网络的权值, α \alpha α 为平滑系数。通过指数加权平均,可避免 Temporal Ensembling 方法的局限性,且可得到更为精准的模型(相比于直接使用训练的到的权重)
partial consistency loss仅将 consistency loss 用在未标注的点上,这样可通过减少教师网络注入(injected)的不确定性来对标注点进行更严格的监督,同时利用更精准的教师网络输出来对未标注点进行监督。其损失函数如下:
min θ ∑ f = 1 F ∑ i = 1 ∣ P f ∣ G i , f = { H ( y ^ f , i ∣ θ , y f , i ) , p f , i ∈ S l o g ( y ^ f , i ∣ θ ) y ^ f , i ∣ θ E M A , p f , i ∈ U \min_{\theta} \sum_{f=1}^{F} \sum_{i=1}^{|P_f|}G_{i, f} = \begin{cases} H(\hat{y}_{f, i}|_{\theta}, y_{f, i}), & p_{f, i} \in S \\ log(\hat{y}_{f, i}|_{\theta})\hat{y}_{f, i}|_{\theta^{EMA}}, & p_{f, i} \in U \end{cases} θminf=1∑Fi=1∑∣Pf∣Gi,f={ H(y^f,i∣θ</

本文介绍了ScribbleKITTI,首个针对激光雷达点云的涂鸦标注数据集,用于3D语义分割。为解决弱监督标注带来的问题,论文提出了类范围平衡自训练、金字塔局部语义上下文描述子等方法,以提高伪标签质量。这些方法在仅使用8%标注点的情况下,实现了接近全监督性能的模型。此外,文章还讨论了涂鸦标注在3D空间中的挑战及解决方案。
最低0.47元/天 解锁文章
4129

被折叠的 条评论
为什么被折叠?



