原始数据集详情
简介:EvLab-SS benchmark 数据集武大公开数据集,用于评估真实工程场景上的语义分割算法,旨在为遥感领域的高分辨率像素级分类任务寻找一种良好的深度学习架构。
数据集来源于中国地理条件调查和绘图项目,每幅图像都有地理条件调查的完整注释。数据集的平均大小约为4500×4500像素。EvLab-SS数据集包含11个大类,分别是背景、农田、花园、林地、草地、建筑、道路、构筑物、挖孔桩、沙漠和水域,目前包括由不同平台和传感器拍摄的60幅图像,训练集37幅、验证集8幅、测试集15幅。
该数据集包括35幅卫星图像,其中19幅由World-View-2卫星采集,5幅由GeoEye卫星采集,5幅由Quick Bird卫星采集,6幅由GF-2卫星采集;该数据集还有25幅航空图像,其中10幅图像的空间分辨率为0.25 m,15幅图像的空间分辨率为0.1 m。
Key | Value |
---|---|
卫星类型 | 多种 |
覆盖区域 | 未知 |
场景 | 未知 |
分辨率 | 不固定 |
数量 | 训练集37幅、验证集8幅、测试集15幅 |
单张尺寸 | 约为4500*4500 |
原始影像位深 | 8位 |
标签图片位深 | 8位 |
原始影像通道数 | 三通道 |
标签图片通道数 | 单通道 |
标签类别对照表
像素值 | 类别名(英文) | 类别名(中文) | RGB |
---|---|---|---|
0 | background | 背景 | |
1 | farmland | 农田 | |
2 | garden | 花园 | |
3 | woodland | 林地 | |
4 | grassland | 草地 | |
5 | building | 建筑 | |
6 | road | 道路 | |
7 | structure | 构筑物 | |
8 | digging pile | 挖孔桩 | |
9 | desert | 沙漠 | |
10 | water | 水域 |
数据处理部分
大家是否有这样的困惑,真值标签图片的像素值太小,比如1、2、3······,由于像素值太小,导致看上去标签图片全为黑色,无法看出真值标签与影像图片的像素位置是否对应?如果真值标签的像素值间隔太大,又无法直接作为训练样本。
其实有办法可以解决这个问题,那就是在像素值为1、2、3等的图片上添加一个彩色表,添加的彩色表不会改变图片的像素值,但是可以由彩色的视觉效果展示,如下图所示:
下面对原始影像及标签进行模型训练前的数据预处理,根据这套数据集的原始信息,原作者整理的已基本接近训练条件,现在需要做的是根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸,比如512*512,另外如果需要检查裁剪后的数据是否一一对应,最好给标签数据添加颜色表,这样就可以轻易看出影像和真值标签是否一致。
下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小,并给真值标签添加颜色表,效果图如下所示:
最后可以直接用于训练的数据集结构如下所示
/path/to/datas
├── train
│ ├── images
│ │ ├── 2522_0_0.tif
│ │ ├── 2522_0_512.tif
│ │ └── ......
│ └── labels
│ ├── 2522_0_0.tif
│ ├── 2522_0_512.tif
│ └── ......
└── val
├── images
│ ├── 2522_512_512.tif
│ ├── 2523_0_0.tif
│ └── ......
└── labels
├── 2522_512_512.tif
├── 2523_0_0.tif
└── ......
获取相关数据集或咨询交流见 博主首页 个人简介
1、官网原始数据集;
2、中间处理好的大图数据集;
3、裁剪后可直接训练的小图数据集;