NeurIPS 2024 | SynRS3D：最大的合成遥感数据集！用于遥感分割和高度估计等任务

最新推荐文章于 2025-05-05 18:51:18 发布

Amusi（CVer）

最新推荐文章于 2025-05-05 18:51:18 发布

阅读量545

点赞数 2

文章标签： 3d 人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247609068&idx=3&sn=e03bdfc55f77041f3175a86d7cef32c4&chksm=f823e3e86e2ba34c1de88875bb102e59974429570aebb68da2a33d0a9d56d3c9a17b920be7e0&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba和遥感】交流群

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：遥感与深度学习

论文介绍

题目：SynRS3D: A Synthetic Dataset for Global 3D Semantic Understanding from Monocular Remote Sensing Imagery

会议：Conference on Neural Information Processing Systems 2024

论文：http://arxiv.org/abs/2406.18151

数据/代码：https://github.com/JTRNEO/SynRS3D

作者单位：东京大学等

年份：2024

NeurIPS 2024遥感方向论文合集：NeurIPS024

创新点

SynRS3D数据集：该研究推出了全球最大的合成遥感3D数据集SynRS3D，涵盖六种城市风格，具有69,667张高分辨率光学图像，并包含八种地表类型、精确的高度信息以及建筑变化掩码。这一数据集解决了高质量标注数据获取难度大的问题，尤其是在欠发达地区。
RS3DAda算法：提出了一种新颖的多任务无监督域自适应算法RS3DAda，旨在从合成数据到真实场景的转换。这种方法结合了土地覆盖分类和高度估计任务，通过自监督训练框架，提升了在真实世界场景中的表现。
多任务域自适应：RS3DAda通过高度伪标签生成和地表覆盖伪标签生成，结合高度一致性和地面信息，减少了合成与真实数据之间的域间隙，并在合成数据的训练模型上达到了与真实数据相当甚至更好的表现。

数据

1. SynRS3D数据集概述

SynRS3D是迄今为止全球最大的合成遥感3D数据集，旨在解决单视角高分辨率遥感影像的全球语义理解问题。其核心数据集特点如下：

图像数量：SynRS3D包含69,667张高分辨率光学图像。
地面采样距离（GSD）：数据集中的图像分辨率从0.09米到1米不等，覆盖从高分辨率到中等分辨率的多样场景。
场景类型：数据集涵盖六种全球城市风格，包括郊区、城市、山地、沙漠、沿海、农村等多种场景，展示了较强的地理多样性。
地表类型：数据集中包含八种地表覆盖类型，包括裸地、草原、开发空间、道路、树木、水体、农业用地、建筑物。
高度信息：SynRS3D不仅提供地表覆盖类型的标注，还提供精确的高度信息（如树木和建筑物的高度），并生成建筑变化掩码。

2. 地表类型与高度信息

地表覆盖类型：数据集中，八种地表覆盖类型的分布和标注是基于真实世界的比例进行生成的。这些地表类型包括常见的城市元素和自然地貌，如裸地、草原、建筑物、树木和水体等。
高度信息：SynRS3D中的高度信息通过在3D建模软件中精确计算得出，生成的是归一化地表模型（nDSM），代表物体相对于地面的高度。与其他数据集不同，SynRS3D中的高度值是基于几何计算得出的，精度更高，避免了从数字表面模型（DSM）转为地表模型（DTM）过程中引入的噪声。

3. 地理多样性

城市风格多样性：数据集中所覆盖的六种全球城市风格分布广泛，包括亚洲的东京、欧洲的杜塞尔多夫、非洲的阿克拉、南美洲的利马、北美的休斯顿和大洋洲的墨尔本。这种地理多样性使得该数据集能够更好地模拟全球多样的城市环境和自然地貌。
高度分布多样性：相比于其他合成数据集（如SMARS和GTAH），SynRS3D的数据高度分布与真实数据更加接近。例如，SMARS数据集仅模拟了巴黎和威尼斯的建筑物，具有有限的高度范围，而SynRS3D通过引入不同地区的建筑物高度，拓宽了其高度分布范围，包含从低矮建筑到高层建筑的各种高度信息。

4. 数据生成工作流程

场景构建：SynRS3D的生成过程使用了Blender、Python、GPT-4和Stable Diffusion等工具。具体步骤包括通过Python脚本生成地形、放置传感器和场景中的建筑物、树木等元素，并通过Stable Diffusion生成高质量的纹理。
高度图生成：高度图是通过几何算法在3D软件中生成，使用简单的几何计算公式来精确计算物体的高度（nDSM），从而获得建筑物和树木的精确高度信息。
过滤与校正：数据生成后，系统会对异常的高度数据进行过滤，以确保最终的数据集高度分布与真实世界的高度分布更加吻合。
和其它数据集比较：

RS3DAda算法

1. 总体框架

RS3DAda是一种多任务无监督域自适应（UDA）算法，目标是将使用合成数据（SynRS3D）训练的模型迁移到真实世界的数据中，解决合成数据和真实数据之间的差异问题。这个框架包括三个核心步骤：

源域训练：在合成数据集上进行模型的初始训练。
目标域训练：使用无标注的真实数据，通过生成伪标签进行自监督训练。
特征监督：利用预训练的模型对学生模型进行特征监督，以防止在真实数据上的过拟合。

2. 源域训练

源域训练是指使用合成数据集（SynRS3D）来训练模型。在这一步中，采用了一种图像风格转换的方法，通过调整源域图像的风格，使其与真实数据集的风格更加一致。然后，使用标准的监督学习方法训练模型，包括土地覆盖分类和高度估计两个任务。

3. 伪标签生成

为了在没有标注的真实数据上训练模型，RS3DAda通过源域训练好的模型来生成目标域的伪标签。伪标签生成分为两部分：

地表覆盖伪标签生成：通过对目标域图像进行增强处理（如颜色抖动、高斯模糊等），并使用训练好的模型预测地表覆盖类型。这些预测结果作为伪标签，只有置信度高的标签会用于训练。
高度伪标签生成：利用地表覆盖信息来优化高度伪标签，特别是使用地表掩码来排除没有高度的地表类型（如地面），从而提高高度估计的准确性。

4. 目标域训练

在目标域训练中，使用生成的伪标签对真实数据进行自监督训练。通过对地表覆盖分类和高度估计任务分别生成伪标签，模型在真实数据上的表现得以提升。目标域的训练损失仅依赖于生成的高置信度伪标签。

5. 特征约束

为了确保模型在目标域上的稳定表现，RS3DAda引入了一个预训练的特征提取器（如DINOv2），该模型的参数是冻结的，用来监督学生模型的特征更新。这种特征监督帮助模型在训练过程中保持稳定，避免过拟合。

6. 整体优化

RS3DAda通过结合源域和目标域的训练，进一步优化了模型性能。源域的监督训练提供了基础模型，而目标域的自监督训练则通过伪标签生成，进一步提升了模型在真实数据上的泛化能力。此外，特征监督约束也起到了辅助作用。

实验与分析

对比用到的真实世界数据

1. Source-only Scenarios（仅源域实验）

该部分主要测试了模型在仅使用合成数据SynRS3D训练的情况下，直接在真实世界数据集上的表现，重点在于高度估计和地表覆盖分类。

2. Combining SynRS3D with Real Data Scenarios（合成数据与真实数据的结合实验）

在这一部分中，作者探讨了如何将SynRS3D与真实数据结合使用，以提高模型的性能。实验结果表明，合成数据和真实数据的联合训练能够显著提高模型的泛化能力。

(1) 微调实验

该实验展示了在SynRS3D数据集上预训练模型，然后在真实数据集上进行微调的效果。实验在多个真实数据集上进行评估，结果表明：

当真实数据量较小时，SynRS3D的预训练提供了显著的性能提升。
随着更多真实数据的加入，预训练的优势逐渐减小，但仍能在初期提供良好的表现。

(2) 联合训练实验

在此实验中，作者将SynRS3D与真实数据集结合进行联合训练。实验结果显示，联合训练方法能够显著提高模型在高度估计和地表覆盖分类任务上的表现，尤其是在真实数据较少的情况下，SynRS3D提供了重要的补充作用。

3. Transfer SynRS3D to Real-World Scenarios（将SynRS3D迁移到真实世界场景）

这一部分探讨了RS3DAda在将SynRS3D数据迁移到真实世界高度估计任务中的效果。作者对比了RS3DAda与直接在真实数据上训练的模型，并通过不同的评估指标（如平均绝对误差MAE、均方根误差RMSE、精度指标等）进行分析。

4. Stabilizing Training on SynRS3D（SynRS3D上的训练稳定性）

实验结果表明，RS3DAda能够有效地在目标域上进行域自适应，减小合成数据与真实数据的差距，从而提高了模型的稳定性和精度。

5. Comparison with Existing UDA Methods（与现有无监督域自适应方法的对比）

更多图表分析可见原文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和遥感影像交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba或者遥感微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、遥感+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看