原始数据集详情
简介:GID 是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。GID数据集分为大规模分类集(GID-5)和精细土地覆盖集(GID-15)两个部分。大规模分类集(GID-5)包含建筑、农田、森林、草地和水域等5个土地覆盖类别,共计150景像素级标注的Gaofen-2卫星遥感图像。其中,训练集为120景图像,验证集为30景图像。Gaofen-2卫星遥感图像的尺寸为6800×7200,由遥感解译领域的专家进行像素级标注。精细土地覆盖集(GID-15)包含稻田、灌溉地、旱地、园地、乔木林、灌木林、自然草地、人工草地、工业用地、城市住宅、农村住宅、交通用地、河流、湖泊、池塘等15个类别,共计有30000个图像块。
GID数据集具有以下优点:
(1)土地覆盖信息分布广泛。GID包含150景高质量高分辨率的Gaofen-2卫星遥感图像,这些图像是从中国60多个不同的城市拍摄获取,每幅图像都没有云雾遮挡且清晰高质。整体图像的覆盖范围超过50000平方公里的地理区域。
(2)贴近真实的地物分布特性。GID包括相同区域不同季节、不同光照条件下的大量样本。GID数据集在光谱、纹理、结构上具有极为丰富的多样性,十分贴近真实的地物分布特性。
Key | Value |
---|---|
卫星类型 | 高分2 |
覆盖区域 | 覆盖范围超过50000平方公里 |
场景 | 中国60多个不同的城市 |
分辨率 | 0.8m |
数量 | 大规模分类集(GID-5)150张、精细土地覆盖集(GID-15)10张 |
单张尺寸 | 7200*6800 |
原始影像位深 | 8位 |
标签图片位深 | 8位 |
原始影像通道数 | 三通道 |
标签图片通道数 | 三通道 |
标签类别对照表
5类别表:
像素值 | 类别名(英文) | 类别名(中文) | RGB |
---|---|---|---|
1 | built-up | 建筑 | 255,0,0 |
2 | water | 水体 | 0,0,255 |
3 | forest | 森林 | 0,255,255 |
4 | meadow | 草地 | 255,255,0 |
5 | farmland | 农田 | 0,255,0 |
15类别表:
像素值 | 类别名(英文) | 类别名(中文) | RGB |
---|---|---|---|
1 | industrial land | 工业用地 | 0, 0, 63 |
2 | urban residential | 城市住宅 | 0, 63, 63 |
3 | rural residential | 农村住宅 | 0, 63, 0 |
4 | traffic land | 交通用地 | 0, 63, 127 |
5 | paddy field | 稻田 | 0, 63, 191 |
6 | irrigated land | 灌溉地 | 0, 63, 255 |
7 | dry cropland | 旱地 | 0, 127, 63 |
8 | garden land | 园地 | 0, 127, 127 |
9 | arbor forest | 乔木林 | 0, 0, 127 |
10 | shrub land | 灌木林 | 0, 0, 191 |
11 | natural meadow | 自然草地 | 0, 0, 255 |
12 | artifical meadow | 人工草地 | 0, 191, 127 |
13 | river | 河流 | 0, 127, 191 |
14 | lake | 湖泊 | 0, 127, 255 |
15 | pond | 池塘 | 0, 100, 155 |
数据集存在的问题
问题1:影像色彩怪异
原始影像提供的8位数据,颜色看着很奇怪,不像是正常的颜色,具体可以看下图:
而提供的16位数据,颜色看着就是正常的,可看下图:
但是我们在模型训练的时候通常使用8位数据集进行训练,所以可以就使用16位影像,不过需要把16位转为8位,转换后的影像颜色看着也是正常的。
问题2:标签有黑边
标签的四周有黑色边框,见小图所示。如果不处理会导致后面切分成小图时,小图标签和小图影像的对应位置的像素不匹配,结果就是标注有问题了。可解决的办法就是将四周的黑边裁剪掉,这样切分的小图就没问题了。
颜色表添加
大家是否有这样的困惑,真值标签图片的像素值太小,比如1、2、3······,由于像素值太小,导致看上去标签图片全为黑色,无法看出真值标签与影像图片的像素位置是否对应?如果真值标签的像素值间隔太大,又无法直接作为训练样本。
其实有办法可以解决这个问题,那就是在像素值为1、2、3······的图片上添加一个颜色表,添加的颜色表不会改变图片的像素值,但是会有彩色的视觉效果展示,如下图所示:
数据预处理
下面对原始影像及标签进行模型训练前的数据预处理,根据这套数据集的原始信息,原始数据包括原始影像和RGB真值图片,需要将RGB波段转化为单波段图片,然后根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸,比如512*512,另外如果需要检查裁剪后的数据是否一一对应,最好给标签数据添加颜色表,这样就可以轻易看出影像和真值标签是否一致。
下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小,并给真值标签添加颜色表,效果图如下所示:
获取相关数据集或咨询交流见 博主首页 个人简介
1、官网原始数据集;
2、中间处理好的大图数据集;
3、裁剪后可直接训练的小图数据集;