Mosaic数据增强

JIOPu

已于 2022-01-19 09:04:31 修改

阅读量9.9k

点赞数 8

分类专栏： YOLO 文章标签：深度学习目标检测

于 2022-01-01 20:09:25 首次发布

本文链接：https://blog.csdn.net/m0_46498587/article/details/122268698

版权

YOLO-V5 Mosaic数据增强图像处理数据增强目标检测

关键词由CSDN通过智能技术生成

YOLO 专栏收录该内容

4 篇文章 2 订阅

订阅专栏

YOLO-V5 代码中数据增强代码理解

对 u 版 yolo-v5 中的 load_mosaic 代码的理解。
在这里插入图片描述

前言

【个人学习笔记记录，如有错误，欢迎指正】

YOLO-V4 论文地址：https://arxiv.org/pdf/2004.10934.pdf
YOLO-V5 代码仓库地址：https://github.com/ultralytics/yolov5

一、Mosaic 数据增强是什么？

在 YOLO-V4 论文中提到：Mosaic 数据增强是一种新的混合4幅图像的数据增强方法，该方法参考了 CutMix 只混合了 2 个输入图像的方法。
优点：网络模型上，由于硬件资源的原因，不能够将 batch_size 设置过大，通过 Mosaic 方法就类似间接的增大了 batch_size。
在这里插入图片描述

二、代码理解

1. 新图像的中心点的生成

labels4, segments4 = [], []
s = self.img_size
yc, xc = (int(random.uniform(-x, 2 * s + x)) for x in self.mosaic_border)

在这里插入图片描述
在上图中灰色区域内随机生成中心点的（x, y）坐标。
中心点的坐标分别对应：
第一张图像：右下角坐标
第二张图像：左下角坐标
第三张图像：右上角坐标
第四张图像：左上角坐标

2. 从数据集中再随机选择 3 张图像，并加载这4张图像数据

indices = [index] + random.choices(self.indices, k=3)
random.shuffle(indices)
for i, index in enumerate(indices):
	img, _, (h, w) = load_image(self, index)

3.摆放第一张图像

将第一张图像的右下角坐标放置在生成的中心点上。因为图像的大小和中心点的位置会出现多种放置情况。

if i == 0:
	# 使用数值 114 对 img4 三个维度全部进行填充
	img4 = np.full((s * 2, s * 2, img.shape[2]), 114, dtype=np.uint8)
	x1a, y1a, x2a, y2a = max(xc - w, 0), max(yc - h, 0), xc, yc
	x1b, y1b, x2b, y2b = w - (x2a - x1a), h - (y2a - y1a), w, h

1. 情况一

图像一的宽度和高度都超过了填充区域给定的大小。
这样对图像一裁剪掉蓝色区域，保留正好填充的红色区域。
在这里插入图片描述

2. 情况二

图像一的高度、宽度小于填充区域给定的大小，
这样对图像一就直接进行填充。
在这里插入图片描述
不管是哪一种情况，只需要计算出填充的图像在填充区域内的最合理的区域坐标，即图像一的左上角坐标值即可。
只要保证被填充图像在填充区域不越界即可！

4.摆放其余三张图像

elif i == 1:  # top right
    x1a, y1a, x2a, y2a = xc, max(yc - h, 0), min(xc + w, s * 2), yc
    x1b, y1b, x2b, y2b = 0, h - (y2a - y1a), min(w, x2a - x1a), h
elif i == 2:  # bottom left
    x1a, y1a, x2a, y2a = max(xc - w, 0), yc, xc, min(s * 2, yc + h)
    x1b, y1b, x2b, y2b = w - (x2a - x1a), 0, w, min(y2a - y1a, h)
elif i == 3:  # bottom right
    x1a, y1a, x2a, y2a = xc, yc, min(xc + w, s * 2), min(s * 2, yc + h)
    x1b, y1b, x2b, y2b = 0, 0, min(w, x2a - x1a), min(y2a - y1a, h)

根据上面的方法：
将第二张图像的左下角放到生成的中心点上，然后计算出图像二在填充区域中的右上角坐标；
将第三张图像的右上角放到生成的中心点上，然后计算出图像三在填充区域中的左下角坐标；
将第四张图像的左上角放到生成的中心点上，然后计算出图像四在填充区域中的右下角坐标；

5.在原图像中找到需要填充的部分

img4[y1a:y2a, x1a:x2a] = img[y1b:y2b, x1b:x2b]
padw = x1a - x1b
padh = y1a - y1b

取出上面找到的红色区域部分，复制到拼接后的图像中。

6.标签的相应转换

在进行标签的转换前，需要对 YOLO 的标签格式进行理解。

1.YOLO标签格式

对于 YOLO 的标签数据格式为：n * 5，其中 n 为标注框的个数，5 分别为如下：
< box_classifier > < box_x > < box_y > < box_width > < box_height >
<类别索引> <标注框中心点 x 坐标> <标注框中心点 y 坐标> <标注框宽度> <标注框高度>
类别索引：整数，0 ~ （n-1），n个类别。注：这里的 0 还不是背景。
box_x 和 box_width ，是除以了图像本身的宽度。
box_y 和 box_height ，是除以了图像本身的高度。
box_x 、box_y、box_width 、box_height 四个值都使用原图信息进行了归一化操作。

2.YOLO标签格式的转换

labels, segments = self.labels[index].copy(), self.segments[index].copy()
if labels.size:
	labels[:, 1:] = xywhn2xyxy(labels[:, 1:], w, h, padw, padh)
    segments = [xyn2xy(x, w, h, padw, padh) for x in segments]
labels4.append(labels)
segments4.extend(segments)