NeurIPS24 | Terra: 覆盖全球的多模态时空数据集

最新推荐文章于 2025-04-30 15:03:34 发布

小天才学习机打游戏

最新推荐文章于 2025-04-30 15:03:34 发布

阅读量1.1k

点赞数 17

文章标签：深度学习人工智能机器学习百度 chatgpt

本文链接：https://blog.csdn.net/m0_59164520/article/details/144568459

版权

论文介绍

题目：Terra: A Multimodal Spatio-Temporal Dataset Spanning the Earth

会议：Conference on Neural Information Processing Systems 2024

论文：https://neurips.cc/virtual/2024/poster/97768

数据/代码：https://github.com/CityMind-Lab/NeurIPS24-Terra

NeurIPS 2024遥感方向论文合集：NeurIPS024

创新点

覆盖范围广：Terra 数据集提供全球范围内45年的时空数据，涵盖648万个高分辨率网格点。
多模态集成：整合时间序列、地理图像和文本数据，支持多模态分析与高级模型开发。
高分辨率与灵活性：时间分辨率细至3小时，空间分辨率高达0.1°，并支持多尺度聚合。
推动时空智能研究：为多模态学习和时空数据挖掘提供统一平台，填补现有数据集在广度和深度上的不足。

数据

Terra 数据集包括 时间序列数据、文本数据 和 图像数据，覆盖广泛的时空范围，具有高分辨率和多样性。

1. 时间序列数据

数据来自 Global Water (GloH2O) Measurement Project，整合了以下两种主要产品。对于降水记录，优先使用 MSWEP 数据，以替代 MSWX 降水数据。

（1）MSWX：一个高分辨率（3小时、0.1°）、偏差校正的气象数据产品，覆盖全球，包含10个变量：

降水量（Precipitation，单位：mm/3h）。
气温（Air temperature，单位：°C）。
日最低气温（Daily minimum temperature，单位：°C）。
日最高气温（Daily maximum temperature，单位：°C）。
地表气压（Surface pressure，单位：Pa）。
相对湿度（Relative humidity，单位：%）。
比湿（Specific humidity，单位：g/g）。
风速（Wind speed，单位：m/s）。
下行短波辐射（Downward shortwave radiation，单位：W/m²）。
下行长波辐射（Downward longwave radiation，单位：W/m²）。

（2）MSWEP：一种结合测站、卫星和重分析数据的全球降水产品，具有更高的降水估算精度，特别适用于测站稀疏或对流主导的区域。

数据量：共有 6.82万亿条记录，并通过空间和时间聚合生成 9 种变体数据集。
覆盖范围：
时间：从 1979 年至 2024 年，跨度 45 年（共计 16,436 天）。
空间：648万个网格，支持 0.1° 的高空间分辨率。
分辨率：
时间分辨率：3小时、1天、1个月。
空间分辨率：0.1°、0.5°、1°。

2. 文本数据

文本数据来源于全球地理和气候数据库：

气候信息：来自 Köppen 气候分类项目，描述了1901年至2010年的气候类型，使用三位字母代码表示气候类别（如“热带”、“干旱”）。
地形信息：来自 ETOPO2v2 数据集，提供地形、海岸线等信息。通过计算每个网格区域的平均值，生成该区域的平均海拔。
土地覆盖信息：来源于 C3S 全球土地覆盖产品（2022年数据），包含38类土地覆盖（如“雨养农田”和“落叶阔叶树”）。
国家归属：基于 world-geo-json 数据。
补充文本生成：
利用大型语言模型（LLM），如 LLaMA3，生成地理相关的补充描述（如区域气候、植被类型等）。
提示工程：采用空间提示工程，为 LLM 提供更精准的查询方向，减少生成文本中的错误信息。
局限性：
文本分辨率较低（未达到 0.1°），生成过程受限于时间和资源成本。
使用 LLM 生成的文本存在一定的陈旧性。

3. 图像数据

基于 Mercator 投影，对地球按不同空间分辨率网格化，使用 GMT 和 PyGMT 工具生成地理图像。

选取常用地理信息图像，包括：

地球地形图：展示地球表面的平均海拔。
重力异常图：归一化后的重力值，用于识别地质结构。
磁异常图：显示地球磁场的局部异常。
地形坡度图：包含地形的高程和推算的重力信息。
水陆特征图：展示水体和陆地的分布。
垂直重力梯度图：用于检测地质结构中的小型地质体。
补充数据：卫星遥感图像：可通过 ArcGIS 平台获取每个网格的相关卫星影像（例如 Sentinel-2 数据）。
局限性：
未达到 0.1° 的图像分辨率，因生成成本高。
卫星图像的更新和分发受限制，可能存在过时的问题。

应用案例

时空分析任务

任务：基于过去的降水数据预测未来降水量（7天、15天、30天）。
模型：
时间序列模型：TimesNet、FEDformer、PatchTST、DLinear。
时空模型：STAEformer、STID、GWNet、STGCN。
专用降水模型：ConvLSTM。
简单基线方法：历史均值（HI）。
结果：
TimesNet（时间序列模型）表现最佳，因其有效结合时间嵌入信息。
时空模型未显著优于时间序列模型，可能因为降水数据的非平稳性和极端波动性。

空间分析任务

1) 基于位置的空间变量预测

任务：通过地理坐标预测环境变量（降水、风速、温度）。
模型：
SatCLIP（基于卫星预训练）。
GeoCLIP（基于地理标记街景图像）。
CSP（针对特定任务设计的位置编码模型）。
结果：
SatCLIP 表现最佳，因其语义信息更契合环境相关任务。

2) 基于视觉-语言的空间变量预测

任务：利用卫星影像和文本描述，预测空间变量。
模型：
UrbanVLP、UrbanCLIP（视觉-语言模型）。
CLIP（经典多模态模型）。
结果：
不同国家的性能因地理特性差异而有所波动。
UrbanVLP 整体表现较佳，展现了 Terra 数据集在多模态分析中的潜力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述