Robust Point Cloud Segmentation with Noisy Annotations
事实上,与二维图像标注[1]、[2]相比,三维数据的干净标签更难获得。这主要是因为1)需要标注的点数通常非常庞大,例如在 ScanNetV2 [3] 中标注一个典型的室内场景时,需要标注百万量级的点数;2)标注过程本身更加复杂,需要标注者的专业技能和额外知识,例如不断改变视图、位置和比例来理解底层三维结构。因此,即使是常用的三维场景数据集 ScanNetV2 [3](这已经是从 ScanNet 中提炼标签后的版本),也有很大一部分标签噪声。为了证明这一点,我们将现实世界中的标签噪声分为两大类:一类是实例级标签噪声,即整个实例都被错误地标注了,如图 1 第一行所示;另一类是边界级标签噪声,即实例之间的边界被不准确地标注了,如图 1 第二行所示。
我们提出了点噪声自适应学习(PNAL)框架,率先解决了实例级标签噪声问题。与图像任务中的降噪方法相比,我们的框架不考虑噪声率,以应对点云特有的空间变化噪声率。具体来说,1.我们提出了一种按点进行置信度选择的方法,以便从每个点的历史预测中获得可靠的标签。2.我们还提出了一种集群标签校正方法,该方法采用投票策略,通过考虑邻居相关性来生成最佳标签。3.为了处理边界级标签噪声,我们还提出了一种变体 "PNAL-边界",采用渐进式边界标签清理策略。
Pipeline Overview
我们对 PNAL 和 PNAL-boundary 的训练过程分为两个阶段:第热身阶段和噪音清理阶段。两个框架的热身阶段相同,如图 2 上部(浅蓝色)所示。我们首先以 Ewarm-up epochs 的默认方式在所有样本上训练网络,其中 Ewarm-up 表示该阶段的 epochs 数量。热身阶段促使网络学习简单的数据,这些数据基本上都是被一致标记为正确的数据。