38-Cloud 云分割数据集使用教程
项目介绍
38-Cloud 是一个用于云检测的云分割数据集,包含了38个Landsat 8场景图像及其手动提取的像素级地面真实值。该数据集旨在支持深度学习在卫星图像云检测领域的应用。数据集中的图像被切割成多个384*384的补丁,适用于基于深度学习的语义分割算法。
项目快速启动
环境准备
确保你已经安装了以下工具和库:
- Python 3.x
- Git
- Jupyter Notebook(可选)
克隆项目
首先,克隆项目到本地:
git clone https://github.com/SorourMo/38-Cloud-A-Cloud-Segmentation-Dataset.git
cd 38-Cloud-A-Cloud-Segmentation-Dataset
数据下载
你可以通过以下链接下载完整的数据集:
数据预处理
数据集包含训练和测试补丁,每个补丁有4个对应的频谱通道(红、绿、蓝和近红外)。以下是一个简单的数据预处理示例:
import os
import numpy as np
from PIL import Image
# 加载训练数据
train_dir = '38-Cloud_training'
train_red = np.array([np.array(Image.open(os.path.join(train_dir, 'train_red', img))) for img in os.listdir(os.path.join(train_dir, 'train_red'))])
train_green = np.array([np.array(Image.open(os.path.join(train_dir, 'train_green', img))) for img in os.listdir(os.path.join(train_dir, 'train_green'))])
train_blue = np.array([np.array(Image.open(os.path.join(train_dir, 'train_blue', img))) for img in os.listdir(os.path.join(train_dir, 'train_blue'))])
train_nir = np.array([np.array(Image.open(os.path.join(train_dir, 'train_nir', img))) for img in os.listdir(os.path.join(train_dir, 'train_nir'))])
# 合并通道
train_data = np.stack((train_red, train_green, train_blue, train_nir), axis=-1)
应用案例和最佳实践
案例一:基于深度学习的云检测
使用深度学习模型(如U-Net)进行云检测是该数据集的主要应用之一。以下是一个简单的U-Net模型训练示例:
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, UpSampling2D, concatenate
def unet_model(input_size=(384, 384, 4)):
inputs = Input(input_size)
conv1 = Conv2D(64, 3, activation='relu', padding='same')(inputs)
conv1 = Conv2D(64, 3, activation='relu', padding='same')(conv1)
pool1 = MaxPooling2D(pool_size=(2, 2))(conv1)
conv2 = Conv2D(128, 3, activation='relu', padding='same')(pool1)
conv2 = Conv2D(128, 3, activation='relu', padding='same')(conv2)
pool2 = MaxPooling2D(pool_size=(2, 2))(conv2)
conv3 = Conv2D(256, 3, activation='relu', padding='same')(pool2)
conv3 = Conv2D(256, 3, activation='relu', padding='same')(conv3)
pool3 = MaxPooling2D(pool_size=(2, 2))(conv3)
conv