标题:From Semi-supervised to Omni-supervised Room Layout Estimation Using Point Cloud
作者:Huan-ang Gao, Beiwen Tian, Pengfei Li, Xiaoxue Chen, Hao Zhao, Guyue Zhou , Yurong Chen and Hongbin Zha
来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)
这是佳佳怪分享的第6篇文章
摘要
房间布局估计是一项存在已久的机器人视觉任务,对环境感知和运动规划都有好处。然而,由于标注困难,使用点云(PC)进行布局估计仍存在数据稀缺的问题。因此,我们基于模型指数移动平均的理念,解决了这一任务的半监督设置问题。但要将这一方案调整为基于 PC 的布局估计的最先进(SOTA)解决方案并非易事。为此,我们定义了一种四元组匹配策略,并根据为布局四元组量身定制的指标定义了几种一致性损失。此外,我们还提出了一种新的在线伪标签采集算法,该算法将四边形和 PC 之间的混合距离度量分布分解为两个部分。该技术无需手动选择阈值,可直观地鼓励四边形与可靠的布局点对齐。令人惊讶的是,这一框架也适用于完全监督设置,在 ScanNet 基准测试中取得了新的 SOTA。最后但并非最不重要的一点是,我们还将半监督设置推向了现实的全监督设置,在新注释的 ARKitScenes 测试集上展示了显著提升的性能。我们的代码、数据和模型都是公开的。
图 1. (a) 输入是三维点云,其颜色仅用于可视化。(b) 我们仅使用 ScanNet 训练集中 20% 的标注数据训练前 SOTA 方法 PQ-Transformer,并将其作为基线。© 我们在整个 ScanNet 训练集上采用我们的方法,只使用 20% 的标注数据,结果布局预测更加准确。
图 2. 方法概述。在每次训练迭代中,我们从有标签数据集和无标签数据集中分别抽取样本,形成一个批次。首先对输入批次进行随机变换,然后将其输入学生模型,生成预测结果。与此同时,输入批次也被送入教师模型,然后经过变换得出预测结果。在采用的两种转换中,FPS 采样使用不同的种子,而旋转、翻转和缩放则完全相同。我们总共施加了三种损失:(1) 转化标签与学生模型预测之间的监督损失。(2) 一致性损失,即最小化学生预测与教师预测之间的差异。(3) 鼓励四边形与可靠布局点对齐的伪标签损失。学生参数根据三种损失之和通过梯度下降法更新,而教师参数则通过学生参数的指数移动平均(EMA)法更新。
图 3. 师生对齐图解。(a) 对于每一个教师预测的四边形,我们都会找到最近的学生预测的四边形。尽管教师的预测是有噪声的,但四边形度得分却能说明预测的准确性。预测的准确性。(b) 这三个图说明了两个四边形之间定义距离的三个组成部分。定义的两个四边形之间的距离。
图4。关于Gamma混合滤波的插图。我们在(b)中计算了所提出的点和四边形之间的混合度量,其中较暖的颜色表示较短的距离。然后,我们将度量的分布分解为两个分量,分别对应于属于四边形和不属于四边形的点。我们使用混合分布模型(如(c)所示)过滤掉冗余点,并以更高的精度重新估计四边形,供学生模型学习。
图 5. ScanNet 的定性结果。比例代表使用中的注释数据比例。
图 6. ARKitScenes 的定性结果。地面真实布局由crowd-sorcing注释。
表I 扫描网的布局估计F1-SCORES
表 II 场景布局估计 F1 分数
表III 数据转换策略的消融
表IV 四均值教师消融
表 V 伽马混合滤波的消融情况
结论
我们的研究迈出了仅使用点云进行全监督布局估计的第一步,这在机器人领域具有很好的应用前景。我们的训练框架结合了四均值教师和伽玛混合滤波,以更好地利用未标记的数据。实验结果证明了我们的方法在半监督、全监督和全监督环境中的有效性。尽管我们的方法有效,但局限性仍然存在。在不完整的场景中,我们的方法的预测是不令人满意的,在这些场景中,不足的点无法形成布局墙。未来,由于PQ Transformer[29]实现带来的准实时速度,我们将考虑可能的纠正措施,包括整合在线推理结果。