5.18-5.24周报

最新推荐文章于 2024-08-27 16:38:10 发布

abaabahh

最新推荐文章于 2024-08-27 16:38:10 发布

阅读量652

点赞数 24

文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/abaabahh/article/details/139156854

版权

论文标题：Unleashing Network Potentials for Semantic Scene Completion

机构单位：南京理工大学计算机科学与工程学院，新加坡管理大学，香港科技大学

代码地址：GitHub - fereenwong/AMMNet: official code for "Unleashing Network Potentials for Semantic Scene Completion"

论文的核心思想是提出了一个名为AMMNet的框架，用于解决语义场景补全中的两个特定挑战：

1.单一模态特征学习效率低；2.过拟合到有限的数据集，影响在不同数据集上的泛化能力。

引言

目前的SSC方法依赖于RGB图像和深度等多模态输入，以截断符号距离函数(TSDF)表示。

目前在多模态模型中联合学习时，与单模态模型相比，单个模态的丰富信息没有得到充分释放。使用有限场景数据训练的深度 SSC 模型容易过度拟合。为了解决这些问题，本文提出了一种新的SSC框架AMMNet，通过优化梯度更新来更好地释放潜力。图(c)给出了一个概念说明，它由两个关键组件组成，旨在解决已识别的问题。通过跨模式的相互依赖梯度更新，可以刺激编码器在联合训练中充分释放RGB和TSDF的表示。开发了一种定制的对抗训练方案来缓解过度拟合。该方案中的极小极大竞争动态地刺激模型的连续演化。

贡献

该论文有以下两点贡献：1.提出了一种跨模态调制模块，以更好地利用多模态学习中的单模态表示。2.开发了一种定制的对抗训练方案，以防止过拟合。

方法介绍

该网络输入部分为RGB图像和TSDF图像，分别通过图像编码器、2D到3D投影层和TSDF编码器投射到3维空间，图中标记为红色的 𝑀，表示跨模态调制模块。该模块通过TSDF信息自适应地重新校准RGB特征，实现跨模态间的梯度更新。将得到的结果使用多个DDR块进行特征处理。解码器使用3D卷积层和反卷积层（Deconv(k,s)）生成最终的预测结果。最后通过上采样调整特征图的尺寸，以适应网络的不同层次。判别器用于区分真实和生成的体素。它采用DDR模块和全连接层进行特征处理，并最终输出预测结果是否为真实（GT）或生成（Fake）。判别器通过最小最大竞争机制，动态地刺激模型的持续进化，从而缓解过拟合问题。

该网络通过以下两个关键模块来实现有效的语义场景补全：

跨模态调制模块：通过在不同模态间共享和更新梯度，充分利用每个单模态的表示能力。
定制的对抗训练机制：通过生成具有扰动的真实样本来增强判别器的识别能力，避免过拟合问题。

部分结果展示

NYUCAD 测试集上的结果比较场景完成：Precision: AMMNet（92.8%）在所有方法中最高。IoU: AMMNet（84.0%）与AMMNet𝐷𝐿𝑎𝑏𝑣3DLabv3（83.3%）均表现出色。语义场景完成 (Semantic Scene Completion)：AMMNet𝐷𝐿𝑎𝑏𝑣3DLabv3 在平均性能上领先（67.2%）。在特定类别如床、沙发、桌子和电视等方面表现尤为突出。

质化比较：展示了在NYU测试集上的挑战性室内场景中，AMMNet和其他方法（如SSCNet、3D-Sketch、CleanerS）在语义场景完成中的视觉效果比较。AMMNet在复杂场景下显示出更高的精确度和细节保留，与Ground-Truth更为接近。结论：多模态输入的有效性：AMMNet显著提升了场景完成和语义场景完成的准确性和一致性。对抗训练的优势：定制的对抗训练方案有效地防止了过拟合，提高了模型的泛化能力。跨模态调制：跨模态调制模块提升了单一模态的表示能力，在多模态联合训练中表现优异。

总结与展望

在本研究中，针对现有基于RGB的语义场景完成方法存在的特征学习无效和过拟合问题，提出了一种新的深度学习框架AMMNet。通过引入跨模态调制和对抗训练两个核心技术，AMMNet显著提升了单模态表示能力，并有效防止了过拟合。大量实验表明，AMMNet在NYU和NYUCAD数据集上的表现超过了现有的最先进方法，特别是在复杂室内场景中。

未来的工作可以进一步探索以下方向：更广泛的数据集验证：在更多多样化的数据集上测试AMMNet，以验证其通用性。融合更多传感器数据：除了RGB和TSDF，还可以结合其他传感器数据（如激光雷达）以增强场景理解的准确性和鲁棒性。增强模型鲁棒性：研究更复杂的对抗训练策略，以进一步提高模型在不同场景和条件下的泛化能力。

其他工作

跑了之前的论文代码，但是没有定量的评价指标，只有定性的评价指标，实际结果不是很好，可能存在代码没有完全公布的原因。

abaabahh

关注

24
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
5.18-5.24周报

该网络输入部分为RGB图像和TSDF图像，分别通过图像编码器、2D到3D投影层和TSDF编码器投射到3维空间，图中标记为红色的 𝑀，表示跨模态调制模块。该模块通过TSDF信息自适应地重新校准RGB特征，实现跨模态间的梯度更新。将得到的结果使用多个DDR块进行特征处理。解码器使用3D卷积层和反卷积层（Deconv(k,s)）生成最终的预测结果。最后通过上采样调整特征图的尺寸，以适应网络的不同层次。判别器用于区分真实和生成的体素。
复制链接

扫一扫