中国首个全国34省3,667个城市多属性建筑数据集(屋顶、高度、结构、功能、风格、年龄、质量等属性)
数据介绍
快速获取三维(3D)建筑数据,包括屋顶、高度和方向等几何属性,以及功能、质量和年龄等指示性属性,对于准确的城市分析、模拟和政策更新至关重要。当前建筑数据集存在建筑多属性覆盖不完整的问题。本文提出了第一个国家规模的具有人工智能的多属性建筑数据集(CMAB),覆盖3667个空间城市,3100万栋建筑,236亿平方米的屋顶,OCRNet-based提取的F1-Score为89.93%,总计3630亿平方米的建筑存量。我们使用城市行政分类训练了基于bootstrap聚合的XGBoost模型,集成了形态、位置和功能特征。使用多源数据,包括数十亿张遥感图像和6000万张街景图像(SVIs),我们使用机器学习和大型多模态模型为每栋建筑生成了屋顶、高度、结构、功能、风格、年龄和质量属性。通过模型基准、现有类似产品和手动SVIs验证,准确性得到了验证,大多在80%以上。我们的数据集和结果对全球可持续发展目标和城市规划至关重要。
中国首个全国34省3,667个城市多属性建筑数据集(屋顶、高度、结构、功能、风格、年龄、质量等属性)
数据集特点与贡献
全面性:CMAB数据集包含建筑的几何属性(屋顶、高度、结构)和指示属性(功能、风格、年龄、质量),实现了建筑实例级别的多属性覆盖。
规模性:覆盖全国3,667个城市、3.1亿栋建筑,是中国首个全国性的多属性建筑数据集。
准确性:通过多源数据融合和机器学习模型,提高了建筑属性提取的准确性,F1分数达到89.93%。
应用价值:该数据集对于全球可持续发展目标(SDGs)和城市规划具有重要意义,可支持数字城市和智能城市的研究与规划。
图1、制作流程
图2、中国空间城市抽样和多源数据的完整性。 a )空间城市与行政城市分布。 b )物理城市内部的多源数据与全国多源数据总量的比例,图表显示,不同数据集中的大部分数据集中在仅占中国1%面积的空间城市。
数据预览:
以北京为例:
在ArcGIS中打开:
属性表部分截图:
数据年份:2023
数据格式:该数据按省份和自然城市组织,并以标准GIS格式保存。每个建筑屋顶被保存为一个由地理坐标系WGS1984中的有限点绘制的多边形,包括建筑屋顶、高度、功能、使用年限和品质。
数据容量:14.4GB(压缩包内含数据来源、引用方法)