3D 语义分割——Scribble-Supervised LiDAR Semantic Segmentation

最新推荐文章于 2024-01-24 14:11:06 发布

Lemon_Yam

最新推荐文章于 2024-01-24 14:11:06 发布

阅读量4.2k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/steven_ysh/article/details/125936890

本文介绍了ScribbleKITTI，首个针对激光雷达点云的涂鸦标注数据集，用于3D语义分割。为解决弱监督标注带来的问题，论文提出了类范围平衡自训练、金字塔局部语义上下文描述子等方法，以提高伪标签质量。这些方法在仅使用8%标注点的情况下，实现了接近全监督性能的模型。此外，文章还讨论了涂鸦标注在3D空间中的挑战及解决方案。

😸论文（CVPR2022 Oral）主要贡献：

提出第一个涂鸦标注（scribble-annotated）的激光雷达语义分割数据集 ScribbleKITTI

提出类范围平衡的自训练（class-range-balanced self-training）来应对伪标签对占据主要数量的类和近距离密集区域的偏好（bias）问题

通过金字塔局部语义上下文描述子（pyramid local semantic-context descriptor）来增强输入的点云，从而提高伪标签的质量

通过将第 2 和 3 点与 mean teacher 框架结合，论文提出的 pipeline 可在仅使用 8% 的标注点下实现 95.7% 的全监督（fully-supervised）性能

😿密集标注（densely annotating）激光雷达点云开销仍然过大，从而无法跟上不断增长的数据量。目前 3D 语义分割的科研工作主要集中在全监督的方法上，而利用弱监督（weak supervision）来实现有效的 3D 语义分割方法尚未被探索。因此，论文提出了使用涂鸦（scribbles）对激光雷达点云进行标注，并发布了第一个用于 3D 语义分割的涂鸦标注（scribble-annotated）数据集 ScribbleKITTI。但这也导致那些包含边缘信息的未标注（unlabeled）点并未被使用，且由于缺乏大量标注点（该方法只使用 8% 的标注点）的数据，影响了具有长尾分布的类置信度（受到的监督减少了），最终使得模型性能有所下降。

😸因此，论文提出了一个用以减少使用这种弱标注（weak annotations）时出现的性能差距的 pipeline，该 pipeline 由三个独立的部分组成，可以与任何 LiDAR 语义分割模型相结合，论文代码采用 Cylinder3D 模型，若对 Cylinder3D 感兴趣可参考我之前的一篇博客。其在只使用 8% 标注的情况下，可达到 95.7% 的全监督性能。

ScribbleKITTI 数据集

在这里插入图片描述

🙀使用涂鸦标注在 2D 语义分割中是一种较为流行且有效的方法，但与 2D 图像不同，3D 点云保留了度量（metric）空间，导致其具有高度的几何结构。为了解决这一问题，论文建议使用更几何化的直线涂鸦（line-scribble）来标注激光雷达点云，与 free-formed 涂鸦相比，直线涂鸦可以更快地标注跨越大距离的几何类（如：道路，人行道等），且直线涂鸦只需要知道这些点（某一类的点云）的起始与结束位置。正如上图汽车（蓝色线条）所示，只需确定两点即可完成标注。这将使原先需要花 1.5-4.5 个小时的标注时间减少到 10-25 分钟。

😸ScribbleKITTI 数据集是基于 SemanticKITTI 的 train-split 部分来标注的。其中，SemanticKITTI 的 train-split 部分包含 10 个 sequences、19130 个 scans、2349 百万个点；而 ScribbleKITTI 只包含 189 百万个标注点。

😿如上面 Figure 3 所示，论文中直线涂鸦主要是将 2D 的线条投影到 3D 表面，这会导致在视角改变时直线涂鸦会变得很模糊（indistinguishable）。

网络结构

在这里插入图片描述

论文提出的 pipeline 可分为 training、pseudo-labeling 和 distillation 这三个阶段，这三个阶段紧密联系，提高生成的伪标签质量，从而提高模型的精度
在 training 阶段，首先通过 PLS 来对数据进行增强，再训练 mean teacher，这有利于后面生成更高质量的伪标签
在 pseudo-labeling 阶段，通过 CRB 来产生目标标签，降低由于点云自身属性降低生成伪标签的质量
在 distillation 阶段，通过前面生成的伪标签再对 mean teacher 进行训练
mean teacher 中 $L_S$ 和 $L_U$ 分别对应有标注的点和未标注的点各自的损失

Partial Consistency Loss with Mean Teacher

mean teacher 框架由 2 部分组成，分别是权值为 $\theta$ 的学生网络和权值为 $\theta^{EMA}$ 的教师网络。通常，学生网络的权值通过梯度下降获得，而教师网络的权值则由指数加权平均（exponential moving average）学生的权值获得，其计算公式如下：

$\theta_t^{EMA} = \alpha \theta_{t-1}^{EMA} + (1-\alpha)\theta_t$

✍️其中， $\theta_t$ 为第 $t$ 步中学生网络的权值， $\theta_t^{EMA}$ 为第 $t$ 步中教师网络的权值， $\alpha$ 为平滑系数。通过指数加权平均，可避免 Temporal Ensembling 方法的局限性，且可得到更为精准的模型（相比于直接使用训练的到的权重）

partial consistency loss 仅将 consistency loss 用在未标注的点上，这样可通过减少教师网络注入（injected）的不确定性来对标注点进行更严格的监督，同时利用更精准的教师网络输出来对未标注点进行监督。其损失函数如下：

$\min_{\theta} \sum_{f=1}^{F} \sum_{i=1}^{|P_f|}G_{i, f} = \begin{cases} H(\hat{y}_{f, i}|_{\theta}, y_{f, i}), & p_{f, i} \in S \\ log(\hat{y}_{f, i}|_{\theta})\hat{y}_{f, i}|_{\theta^{EMA}}, & p_{f, i} \in U \end{cases}$

最低0.47元/天解锁文章