5.18-5.24周报

论文标题:Unleashing Network Potentials for Semantic Scene Completion

机构单位:南京理工大学计算机科学与工程学院,新加坡管理大学,香港科技大学

代码地址:GitHub - fereenwong/AMMNet: official code for "Unleashing Network Potentials for Semantic Scene Completion"

论文的核心思想是提出了一个名为AMMNet的框架,用于解决语义场景补全中的两个特定挑战:

1.单一模态特征学习效率低;2.过拟合到有限的数据集,影响在不同数据集上的泛化能力。

引言

        目前的SSC方法依赖于RGB图像和深度等多模态输入,以截断符号距离函数(TSDF)表示。

        目前在多模态模型中联合学习时,与单模态模型相比,单个模态的丰富信息没有得到充分释放。使用有限场景数据训练的深度 SSC 模型容易过度拟合。为了解决这些问题,本文提出了一种新的SSC框架AMMNet,通过优化梯度更新来更好地释放潜力。图(c)给出了一个概念说明,它由两个关键组件组成,旨在解决已识别的问题。通过跨模式的相互依赖梯度更新,可以刺激编码器在联合训练中充分释放RGB和TSDF的表示。开发了一种定制的对抗训练方案来缓解过度拟合。该方案中的极小极大竞争动态地刺激模型的连续演化。

贡献

        该论文有以下两点贡献:1.提出了一种跨模态调制模块,以更好地利用多模态学习中的单模态表示。2.开发了一种定制的对抗训练方案,以防止过拟合。

方法介绍

        该网络输入部分为RGB图像和TSDF图像,分别通过图像编码器、2D到3D投影层和TSDF编码器投射到3维空间,图中标记为红色的 𝑀,表示跨模态调制模块。该模块通过TSDF信息自适应地重新校准RGB特征,实现跨模态间的梯度更新。将得到的结果使用多个DDR块进行特征处理。解码器使用3D卷积层和反卷积层(Deconv(k,s))生成最终的预测结果。最后通过上采样调整特征图的尺寸,以适应网络的不同层次。判别器用于区分真实和生成的体素。它采用DDR模块和全连接层进行特征处理,并最终输出预测结果是否为真实(GT)或生成(Fake)。判别器通过最小最大竞争机制,动态地刺激模型的持续进化,从而缓解过拟合问题​​。

        该网络通过以下两个关键模块来实现有效的语义场景补全:

        跨模态调制模块:通过在不同模态间共享和更新梯度,充分利用每个单模态的表示能力。
        定制的对抗训练机制:通过生成具有扰动的真实样本来增强判别器的识别能力,避免过拟合问题​​。

部分结果展示

        NYUCAD 测试集上的结果比较场景完成 :Precision: AMMNet(92.8%)在所有方法中最高。IoU: AMMNet(84.0%)与AMMNet𝐷𝐿𝑎𝑏𝑣3DLabv3​(83.3%)均表现出色。语义场景完成 (Semantic Scene Completion):AMMNet𝐷𝐿𝑎𝑏𝑣3DLabv3​ 在平均性能上领先(67.2%)。在特定类别如床、沙发、桌子和电视等方面表现尤为突出。

质化比较:展示了在NYU测试集上的挑战性室内场景中,AMMNet和其他方法(如SSCNet、3D-Sketch、CleanerS)在语义场景完成中的视觉效果比较。AMMNet在复杂场景下显示出更高的精确度和细节保留,与Ground-Truth更为接近。结论:多模态输入的有效性:AMMNet显著提升了场景完成和语义场景完成的准确性和一致性。对抗训练的优势:定制的对抗训练方案有效地防止了过拟合,提高了模型的泛化能力。跨模态调制:跨模态调制模块提升了单一模态的表示能力,在多模态联合训练中表现优异。

总结与展望

        在本研究中,针对现有基于RGB的语义场景完成方法存在的特征学习无效和过拟合问题,提出了一种新的深度学习框架AMMNet。通过引入跨模态调制和对抗训练两个核心技术,AMMNet显著提升了单模态表示能力,并有效防止了过拟合。大量实验表明,AMMNet在NYU和NYUCAD数据集上的表现超过了现有的最先进方法,特别是在复杂室内场景中。

        未来的工作可以进一步探索以下方向:更广泛的数据集验证:在更多多样化的数据集上测试AMMNet,以验证其通用性。融合更多传感器数据:除了RGB和TSDF,还可以结合其他传感器数据(如激光雷达)以增强场景理解的准确性和鲁棒性。增强模型鲁棒性:研究更复杂的对抗训练策略,以进一步提高模型在不同场景和条件下的泛化能力。

其他工作

        跑了之前的论文代码,但是没有定量的评价指标,只有定性的评价指标,实际结果不是很好,可能存在代码没有完全公布的原因。

  • 24
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值