遥感建筑物检测及分割数据集 16000张带标注 coco yolo

look me head

于 2024-10-03 05:24:30 发布

阅读量183

点赞数 2

分类专栏：数据集文章标签：获取QQ767172261 数据集遥感建筑物检测及分割数据集

本文链接：https://blog.csdn.net/2401_83580557/article/details/142688180

版权

数据集专栏收录该内容

323 篇文章 12 订阅

订阅专栏

遥感建筑物检测及分割数据集 16000张带标注 coco yolo

遥感建筑物检测及分割数据集 (Remote Sensing Building Detection and Segmentation Dataset)

规模

图像数量：共16429张图像。
类别：专注于单一类别——建筑物（Building）。

数据划分

训练集 (Train)：通常占总数据的80%左右，约13143张图像。
验证集 (Validation)：通常占总数据的20%左右，约3286张图像。

数据特点

建筑物检测与分割：不仅提供了边界框标注用于目标检测任务，还提供了像素级别的分割标注，适用于实例分割任务。
标注格式多样：支持COCO和YOLO格式的标注，便于不同框架下的使用。
高分辨率图像：遥感图像通常具有较高的分辨率，有助于精细的建筑结构识别。

应用领域

城市规划：帮助城市规划者了解建筑分布，优化城市布局。
灾害评估：在自然灾害发生后快速评估受损建筑情况。
智能交通系统：辅助自动驾驶车辆识别周围环境中的建筑物。
科研应用：为计算机视觉、遥感技术和地理信息系统研究提供宝贵的数据资源。

分类说明

建筑物 (Building)：
- 图片张数：14327张
- 边界框标注个数：195059个

总数

图片总数：16429张
边界框标注总数：195059个
类别数 (nc)：1类

1. 安装依赖库

首先，确保安装了必要的依赖库。可以在项目目录中的requirements.txt文件中列出这些依赖库，然后运行以下命令进行安装：

pip install -r requirements.txt

requirements.txt 文件内容示例：

torch==1.10.0
torchvision==0.11.1
pandas==1.3.4
cv2
albumentations==1.1.0
pycocotools

2. 创建数据集

定义一个自定义的数据集类，并创建数据加载器。

import os
import json
import cv2
from torch.utils.data import Dataset, DataLoader
from torchvision.transforms import Compose, ToTensor, Normalize, Resize
from albumentations import HorizontalFlip, RandomBrightnessContrast, ShiftScaleRotate, BboxFromMasks, BBoxFormatPASCAL
from albumentations.pytorch import ToTensorV2

# 自定义数据集类
class RemoteSensingBuildingDataset(Dataset):
    def __init__(self, data_root, annotations_file, transforms=None):
        self.data_root = data_root
        with open(annotations_file, 'r') as f:
            self.annotations = json.load(f)
        self.transforms = transforms

    def __len__(self):
        return len(self.annotations['images'])

    def __getitem__(self, idx):
        img_info = self.annotations['images'][idx]
        img_path = os.path.join(self.data_root, img_info['file_name'])
        image = cv2.imread(img_path)
        bboxes = []
        for annotation in self.annotations['annotations']:
            if annotation['image_id'] == img_info['id']:
                bbox = annotation['bbox']
                # Convert from [x, y, width, height] to [x_min, y_min, x_max, y_max]
                bboxes.append([bbox[0], bbox[1], bbox[0] + bbox[2], bbox[1] + bbox[3]])

        if self.transforms:
            augmented = self.transforms(image=image, bboxes=bboxes)
            image = augmented['image']
            bboxes = augmented['bboxes']

        return image, bboxes, img_info['id']

# 图像预处理
def get_transforms():
    """构建预处理函数"""
    _transform = [
        Resize(height=416, width=416, interpolation=cv2.INTER_LINEAR),
        HorizontalFlip(p=0.5),
        RandomBrightnessContrast(p=0.2),
        ShiftScaleRotate(p=0.5, shift_limit=0.0625, scale_limit=0.2, rotate_limit=15),
        Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
        ToTensorV2(),
        BboxFromMasks(format=BBoxFormatPASCAL)
    ]
    return Compose(_transform)

# 创建数据加载器
train_dataset = RemoteSensingBuildingDataset(
    data_root='path_to_your_train_images',
    annotations_file='path_to_your_train_annotations.json',
    transforms=get_transforms()
)
val_dataset = RemoteSensingBuildingDataset(
    data_root='path_to_your_val_images',
    annotations_file='path_to_your_val_annotations.json',
    transforms=get_transforms()
)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True, num_workers=4)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False, num_workers=4)

3. 训练模型

可以使用YOLOv5或Mask R-CNN等模型进行训练。

对于YOLOv5:

!git clone https://github.com/ultralytics/yolov5  # 下载YOLOv5代码仓库
cd yolov5

# 使用YOLOv5训练模型
python train.py --weights yolov5s.pt --data path_to_your_data.yaml --name remote_sensing_building_detection --img 416 --batch 16 --epochs 100 --device 0

数据配置文件：创建一个名为data.yaml的数据配置文件，其中包含训练和验证数据集的信息。

train: path_to_your_train_images
val: path_to_your_val_images
nc: 1
names: ['Building']

对于Mask R-CNN:

# 使用Detectron2训练Mask R-CNN
!git clone https://github.com/facebookresearch/detectron2
cd detectron2
python setup.py build develop

# 设置训练配置
from detectron2.config import get_cfg
from detectron2.engine import DefaultTrainer
from detectron2 import model_zoo

cfg = get_cfg()
cfg.merge_from_file(model_zoo.get_config_file("COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x.yaml"))
cfg.DATASETS.TRAIN = ("train",)
cfg.DATASETS.TEST = ()
cfg.DATALOADER.NUM_WORKERS = 2
cfg.MODEL.WEIGHTS = model_zoo.get_checkpoint_url("COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x.yaml")  # Let training initialize from model zoo
cfg.SOLVER.IMS_PER_BATCH = 2
cfg.SOLVER.BASE_LR = 0.00025  # pick a good LR
cfg.SOLVER.MAX_ITER = 30000    # 300 iterations seems good enough for this toy dataset; you may need to train longer for a practical dataset
cfg.MODEL.ROI_HEADS.BATCH_SIZE_PER_IMAGE = 128   # faster, and good enough for this toy dataset (default: 512)
cfg.MODEL.ROI_HEADS.NUM_CLASSES = 1  # only has one class (building)

os.makedirs(cfg.OUTPUT_DIR, exist_ok=True)
trainer = DefaultTrainer(cfg)
trainer.resume_or_load(resume=False)
trainer.train()

4. 调整模型

超参数调整：根据实际情况调整学习率、批大小等超参数。
数据增强：增加旋转、缩放、翻转等数据增强策略以提高模型鲁棒性。

5. 预测与评估

完成训练后，可以使用训练好的模型对新的图片进行预测和评估。

# YOLOv5 模型预测
from models.experimental import attempt_load
from utils.datasets import ImageList
from utils.torch_utils import select_device, time_synchronized
from utils.plots import plot_results

# 加载模型
device = select_device('0')
model = attempt_load('runs/train/exp/weights/best.pt', map_location=device)  # 加载最佳权重

# 新建数据集
test_dataset = ImageList('path_to_test_images', transform=get_transforms())
test_loader = DataLoader(test_dataset, batch_size=1, shuffle=False, num_workers=4)

# 进行预测
results = []
with torch.no_grad():
    t0 = time_synchronized()
    for i, (x, path) in enumerate(test_loader):
        x = x.to(device)  # 将输入图像转换到设备上
        pred = model(x)[0]  # 获取预测结果
        results += plot_results(pred, path, save=True, show=False)  # 绘制预测结果图

print(f'Time {time_synchronized("start") - t0:.3f} s')

# Mask R-CNN 模型预测
from detectron2.utils.visualizer import Visualizer
from detectron2.data import MetadataCatalog

for d in random.sample(dataset_dicts, 3):
    im = cv2.imread(d["file_name"])
    outputs = predictor(im)
    v = Visualizer(im[:, :, ::-1], MetadataCatalog.get(cfg.DATASETS.TRAIN[0]), scale=1.2)
    out = v.draw_instance_predictions(outputs["instances"].to("cpu"))
    cv2.imshow(out.get_image()[:, :, ::-1])

注意：以上代码仅供参考，请根据实际情况修改路径和参数。