动手学深度学习 - 14.6 Object Detection 数据集：香蕉检测任务

夏驰和徐策

于 2025-04-22 11:11:02 发布

阅读量1k

点赞数 27

分类专栏：程序猿之深度学习文章标签：深度学习目标检测人工智能

本文链接：https://blog.csdn.net/tang7mj/article/details/147412609

版权

程序猿之深度学习专栏收录该内容

40 篇文章

订阅专栏

📘 动手学深度学习 - 14.6 Object Detection 数据集：香蕉检测任务

相较于图像分类中的 MNIST、Fashion-MNIST 等经典小数据集，对象检测任务缺乏规模适中、结构清晰的教学型数据集。为此，本节构建了一个简单且完整的香蕉检测数据集，帮助我们演示目标检测模型的训练流程。

🍌 14.6.1 下载数据集

香蕉检测数据集包含 1000 张训练图像和 100 张验证图像，每张图片中包含一个或多个放置在不同背景上的香蕉。标签以 CSV 格式存储，包含图像名称与边界框坐标。

d2l.DATA_HUB['banana-detection'] = (
    d2l.DATA_URL + 'banana-detection.zip',
    '5de26c8fce5ccdea9f91267273464dc968d20d72')

✅ 理论理解

本节使用了人工合成的香蕉检测数据集，用于快速演示检测模型的训练与推理流程；
数据集中包含图像文件和配套的 .csv 格式标注，结构简洁，便于教学；
图像被规整为统一大小（256×256），标注文件中记录每张图像对应的 class + bounding box。

💼 大厂/科研实战理解

工程要点	实战说明
✅ 数据格式标准化	企业/学术项目中常用 VOC XML、COCO JSON 或 YOLO TXT 格式；在生产项目中需统一标签结构方便训练 pipeline
✅ 数据同步机制	生产环境需保障图像与标签的一致性，常用 MD5 校验，或设计哈希标识符映射；
✅ 自动拉取数据集	大厂系统中数据拉取脚本通常与 MLOps 平台集成，如百度 EasyDL、阿里PAI，使用对象存储（OSS/S3）托管
✅ 权限管理	工业级数据需配合身份验证与访问控制，如 token 验证或加密传输，避免泄露商业图像数据

🗃️ 14.6.2 读取数据集

我们定义 read_data_bananas 函数读取图像和边界框，并将其标准化至 [0, 1] 范围。

def read_data_bananas(is_train=True):
    ...

使用 BananasDataset 类封装为 PyTorch 数据集对象，支持索引访问与批处理。

class BananasDataset(torch.utils.data.Dataset):
    ...

配套的 load_data_bananas 函数用于返回训练与验证集的数据加载器：

def load_data_bananas(batch_size):
    ...

✅ 理论理解

定义 read_data_bananas() 函数解析 csv 标注文件，读取图像、提取标签；
输出为图像张量列表与目标框张量列表；
所有 bounding box 被归一化至 [0, 1] 区间。

💼 大厂/科研实战理解

工程要点	实战说明
🔄 数据预处理模块化	在大型项目中，数据读取逻辑通常被封装为 `DatasetBuilder` 类，并与 `transforms` 解耦，便于复用
⚙️ 多标注支持	企业检测平台需支持多对象/多类别图像 → 标签应为 List[BoxN] 格式；
🎯 图像归一化策略	工业部署常使用 `albumentations`/`opencv` 做归一化与预处理，高性能高鲁棒；
🔒 异常数据处理	实际系统中需加入异常图像检测（缺标注、图片损坏等），避免训练崩溃。

📦 数据结构说明

batch_size, edge_size = 32, 256
train_iter, _ = load_data_bananas(batch_size)
batch = next(iter(train_iter))
batch[0].shape, batch[1].shape

输出结果：

(torch.Size([32, 3, 256, 256]), torch.Size([32, 1, 5]))

其中：

图像维度为 (batch_size, 3, 256, 256)
标签维度为 (batch_size, max_num_boxes, 5)
- 第一个元素为类别索引（本例中始终为 0）
- 后四个为边界框的左上角与右下角坐标（已归一化）

✅ 理论理解

封装为继承 torch.utils.data.Dataset 的类，支持 PyTorch 训练的标准接口；
实现 __len__ 与 __getitem__ 方法，实现索引访问。

💼 大厂/科研实战理解

工程要点	实战说明
🧱 数据集类标准化	企业训练平台通常使用 `Detectron2 DatasetCatalog`、`MMDetection Dataset` 模板化封装数据集
🧪 数据验证逻辑	构造数据集类时需引入数据校验机制，如标签合法性检测、框越界处理
🤖 自动补充机制	部分框架（如 YOLOv8）在 Dataset 初始化阶段支持 label auto-fix：自动修正异常框
📦 存储优化	工业系统训练前将图像打包为 `.zip`、`.tar`、`.lmdb`、`.tfrecord` 格式用于大规模训练集加速加载

👁️‍🗨️ 14.6.3 演示标注结果

我们可视化前 10 张图像及其标注框，观察香蕉的大小、角度、位置变化。

imgs = (batch[0][:10].permute(0, 2, 3, 1)) / 255
axes = d2l.show_images(imgs, 2, 5, scale=2)
for ax, label in zip(axes, batch[1][:10]):
    d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w'])