遥感影像-语义分割数据集:GID数据集详细介绍及训练样本处理流程

GID数据集:大规模高分卫星土地覆盖数据集

原始数据集详情

简介:GID 是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。GID数据集分为大规模分类集(GID-5)和精细土地覆盖集(GID-15)两个部分。大规模分类集(GID-5)包含建筑、农田、森林、草地和水域等5个土地覆盖类别,共计150景像素级标注的Gaofen-2卫星遥感图像。其中,训练集为120景图像,验证集为30景图像。Gaofen-2卫星遥感图像的尺寸为6800×7200,由遥感解译领域的专家进行像素级标注。精细土地覆盖集(GID-15)包含稻田、灌溉地、旱地、园地、乔木林、灌木林、自然草地、人工草地、工业用地、城市住宅、农村住宅、交通用地、河流、湖泊、池塘等15个类别,共计有30000个图像块。

GID数据集具有以下优点:

(1)土地覆盖信息分布广泛。GID包含150景高质量高分辨率的Gaofen-2卫星遥感图像,这些图像是从中国60多个不同的城市拍摄获取,每幅图像都没有云雾遮挡且清晰高质。整体图像的覆盖范围超过50000平方公里的地理区域。

(2)贴近真实的地物分布特性。GID包括相同区域不同季节、不同光照条件下的大量样本。GID数据集在光谱、纹理、结构上具有极为丰富的多样性,十分贴近真实的地物分布特性。

KeyValue
卫星类型高分2
覆盖区域覆盖范围超过50000平方公里
场景中国60多个不同的城市
分辨率0.8m
数量大规模分类集(GID-5)150张、精细土地覆盖集(GID-15)10张
单张尺寸7200*6800
原始影像位深8位
标签图片位深8位
原始影像通道数三通道
标签图片通道数三通道

标签类别对照表

5类别表:

像素值类别名(英文)类别名(中文)RGB
1built-up建筑255,0,0
2water水体0,0,255
3forest森林0,255,255
4meadow草地255,255,0
5farmland农田0,255,0

15类别表:

像素值类别名(英文)类别名(中文)RGB
1industrial land工业用地0, 0, 63
2urban residential城市住宅0, 63, 63
3rural residential农村住宅0, 63, 0
4traffic land交通用地0, 63, 127
5paddy field稻田0, 63, 191
6irrigated land灌溉地0, 63, 255
7dry cropland旱地0, 127, 63
8garden land园地0, 127, 127
9arbor forest乔木林0, 0, 127
10shrub land灌木林0, 0, 191
11natural meadow自然草地0, 0, 255
12artifical meadow人工草地0, 191, 127
13river河流0, 127, 191
14lake湖泊0, 127, 255
15pond池塘0, 100, 155

数据处理部分

大家是否有这样的困惑,真值标签图片的像素值太小,比如1、2、3······,由于像素值太小,导致看上去标签图片全为黑色,无法看出真值标签与影像图片的像素位置是否对应?如果真值标签的像素值间隔太大,又无法直接作为训练样本。

其实有办法可以解决这个问题,那就是在像素值为1、2、3等的图片上添加一个彩色表,添加的彩色表不会改变图片的像素值,但是可以由彩色的视觉效果展示,如下图所示:
在这里插入图片描述

下面对原始影像及标签进行模型训练前的数据预处理,根据这套数据集的原始信息,原始数据包括原始影像和RGB真值图片,需要将RGB波段转化为单波段图片,然后根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸,比如512*512,另外如果需要检查裁剪后的数据是否一一对应,最好给标签数据添加颜色表,这样就可以轻易看出影像和真值标签是否一致。

下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小,并给真值标签添加颜色表,效果图如下所示:
在这里插入图片描述

最后可以直接用于训练的数据集结构如下所示

/path/to/GID
├── train
│   ├── images
│   │   ├── 2522_0_0.tif
│   │   ├── 2522_0_512.tif
│   │   └── ......
│   └── labels
│       ├── 2522_0_0.tif
│       ├── 2522_0_512.tif
│       └── ......
└── val
    ├── images
    │   ├── 2522_512_512.tif
    │   ├── 2523_0_0.tif
    │   └── ......
    └── labels
        ├── 2522_512_512.tif
        ├── 2523_0_0.tif
        └── ......

相关数据和代码见 博主首页 个人简介
01、官网原始数据集;
02、中间处理好的大图数据集;
03、裁剪后可训练的小图数据集;

### 遥感语义分割数据集的选择与下载 对于分辨率约为2米的遥感语义分割数据集,可以考虑以下几个选项: #### GID 数据集 GID 是基于中国 Gaofen-2 卫星数据构建的一个大规模高分辨率遥感图像土地覆盖数据集[^2]。虽然其具体分辨率未明确提及为2米,但 Gaofen-2 的空间分辨率达到亚米级别(约1米),因此可能满足需求。 - **特点**: 包含两种子集——GID-5 和 GID-15。前者适用于粗粒度的土地覆盖分类,后者则针对更细粒度的地物类别。 - **获取方式**: 可访问相关研究机构网站或联系作者团队申请数据。 #### 谷歌 Earth 提供的云数据集数据集中包含了来自全球范围内的 RGB 图像,具有不同的分辨率区间 (0.5 米至 15 米)[^3]。尽管并非所有样本都达到精确的2米标准,但仍有可能筛选出符合条件的部分。 - **特性描述**: - 土地覆盖类型多样,涵盖水体、植被等多种环境特征; - 总计拥有150幅独立影像资料,每张大小固定为1280×720像素; - 所有原始素材均为三通道彩色模式呈现,并附带对应的二值化掩码作为真值标签。 如果目标区域恰好位于所提供实例范围内,则可以直接利用这些资源开展实验工作。 #### 其他潜在候选者 除了上述提到的内容之外,还有其他一些公开可用或者商业性质的产品也可能符合要求,比如 Sentinel-2 MSI 或 Landsat 系列卫星所记录下来的成果材料。Sentinel-2A/B 平台能够提供最高可达10米的空间精度产品,经过特定算法增强之后有望接近甚至超越预期阈值水平(即≤2m) 。不过需要注意的是,这类衍生品通常需要额外付费购买或许可授权才能合法使用。 --- 以下是几个值得探索的方向及相关链接建议列表: 1. 访问 [GID 官方主页](http://www.rs.whu.edu.cn/GID/) 获取更多详情以及正式版下载地址; 2. 利用 Google Earth Engine API 自动提取感兴趣区域内匹配条件的历史存档照片 ; 3. 探讨国内外知名科研单位发布的类似专题数据库 , 如 USGS EROS Center, ESA Copernicus Hub etc.; 4. 如果预算允许的话还可以尝试订阅 Planet Labs Inc., Maxar Technologies Ltd.(原DigitalGlobe Corp.) 这样的私营企业所提供的定制服务方案. ```python import requests from bs4 import BeautifulSoup def fetch_dataset_links(url): response = requests.get(url) soup = BeautifulSoup(response.text,'html.parser') links = [] for link in soup.find_all('a'): href=link.get('href') if 'download' in str(href).lower(): links.append(href) return links # Example usage with a hypothetical dataset page URL example_url="https://example.com/datasets" print(fetch_dataset_links(example_url)) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值