原始数据集详情
简介:GID 是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。GID数据集分为大规模分类集(GID-5)和精细土地覆盖集(GID-15)两个部分。大规模分类集(GID-5)包含建筑、农田、森林、草地和水域等5个土地覆盖类别,共计150景像素级标注的Gaofen-2卫星遥感图像。其中,训练集为120景图像,验证集为30景图像。Gaofen-2卫星遥感图像的尺寸为6800×7200,由遥感解译领域的专家进行像素级标注。精细土地覆盖集(GID-15)包含稻田、灌溉地、旱地、园地、乔木林、灌木林、自然草地、人工草地、工业用地、城市住宅、农村住宅、交通用地、河流、湖泊、池塘等15个类别,共计有30000个图像块。
GID数据集具有以下优点:
(1)土地覆盖信息分布广泛。GID包含150景高质量高分辨率的Gaofen-2卫星遥感图像,这些图像是从中国60多个不同的城市拍摄获取,每幅图像都没有云雾遮挡且清晰高质。整体图像的覆盖范围超过50000平方公里的地理区域。
(2)贴近真实的地物分布特性。GID包括相同区域不同季节、不同光照条件下的大量样本。GID数据集在光谱、纹理、结构上具有极为丰富的多样性,十分贴近真实的地物分布特性。
Key | Value |
---|---|
卫星类型 | 高分2 |
覆盖区域 | 覆盖范围超过50000平方公里 |
场景 | 中国60多个不同的城市 |
分辨率 | 0.8m |
数量 | 大规模分类集(GID-5)150张、精细土地覆盖集(GID-15)10张 |
单张尺寸 | 7200*6800 |
原始影像位深 | 8位 |
标签图片位深 | 8位 |
原始影像通道数 | 三通道 |
标签图片通道数 | 三通道 |
标签类别对照表
15类别表:
像素值 | 类别名(英文) | 类别名(中文) | RGB |
---|---|---|---|
1 | industrial land | 工业用地 | 0, 0, 63 |
2 | urban residential | 城市住宅 | 0, 63, 63 |
3 | rural residential | 农村住宅 | 0, 63, 0 |
4 | traffic land | 交通用地 | 0, 63, 127 |
5 | paddy field | 稻田 | 0, 63, 191 |
6 | irrigated land | 灌溉地 | 0, 63, 255 |
7 | dry cropland | 旱地 | 0, 127, 63 |
8 | garden land | 园地 | 0, 127, 127 |
9 | arbor forest | 乔木林 | 0, 0, 127 |
10 | shrub land | 灌木林 | 0, 0, 191 |
11 | natural meadow | 自然草地 | 0, 0, 255 |
12 | artifical meadow | 人工草地 | 0, 191, 127 |
13 | river | 河流 | 0, 127, 191 |
14 | lake | 湖泊 | 0, 127, 255 |
15 | pond | 池塘 | 0, 100, 155 |
数据补充说明
根据官方提供的数据集可以知道,5类别数据还是挺多的,大图150张都有标注类别,但是15类别的样本数据就只有10张标注了类别,这样裁剪成小图512x512大小的可能就只有2100张,这对于模型训练是完全不够的,因此博主根据官方提供的另外一些数据样本完美的将150张大图全部都绘制了15个类别,经过仔细核查,与原始官方公布的类别完全一致,最后切片为512x512大小的共有31500张,这样模型训练就完全足够了。
数据预处理
下面对150张原始影像及标签进行模型训练前的数据预处理,首先根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸,比如512*512,另外如果需要检查裁剪后的数据是否一一对应,最好给标签数据添加颜色表,这样就可以轻易看出影像和真值标签是否一致。
下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小,并给真值标签添加颜色表,效果图如下所示:
提示:需要15类样本补充数据集的小伙伴,可私信哦!