第二十一章数据处理篇：imgaug

最新推荐文章于 2023-10-07 09:59:50 发布

江米江米

最新推荐文章于 2023-10-07 09:59:50 发布

阅读量261

点赞数

分类专栏：深度学习文章标签：深度学习 pytorch 人工智能算法

本文链接：https://blog.csdn.net/github_39502869/article/details/131914189

版权

深度学习专栏收录该内容

34 篇文章 3 订阅

订阅专栏

imgaug是一个强大的图像数据增强库，支持多种图像增强方法，如仿射变换、高斯模糊和几何变换等。它还提供了针对关键点和包围框的增强功能，确保在图像变换时这些特征也能相应调整。通过Sequential、SomeOf、OneOf和Sometimes等方法，可以组合和随机应用增强策略。

摘要由CSDN通过智能技术生成

参考教程：
https://imgaug.readthedocs.io/en/latest/source/jupyter_notebooks.html

概述

imgaug是一个使用的数据增强工具，不仅提供了常见的形状和颜色的增强方法，还提供了一些特殊的增强方法，比如说针对keypoint和bounding boxes的增强。

imgaug中的大部分增强方法，都要求你的输入图像是uint8的numpy arrays，并且最好是RGB图像。更具体的类型要求可以参考dtype_support.html

接下来我们按照imgaug提供的notebook中的处理顺序，来看一下各种类型的增强方法。

针对图片的增强

首先我们来看一下基础的针对图像的增强方法，我们使用imageio读入一张图片，使用imageio直接读入的图像通道就是按照RGB排列的，如果使用opencv，需要自行转换成RGB。
在这里插入图片描述

基础使用样例

imgaug中提供了多种增强方法，并且使用起来很简单，只需要实例化某方法并设定好参数后，再将你的图片传入即可。

以放射变化为例：
在这里插入图片描述
我们可以看一下仿射变化的源码：

classimgaug.augmenters.geometric.Affine(scale=None, translate_percent=None, translate_px=None, rotate=None, shear=None, order=1, cval=0, mode='constant', fit_output=False, backend='auto', seed=None, name=None, random_state='deprecated', deterministic='deprecated')

它的输入参数有多个，包括：

scale：缩放
translate_percent：平移比例
translate_px：平移像素值
rotate：旋转角度
shear：错切角度

在上面的例子中，我们使用的参数是rotate = （-25，25），意思就是旋转的范围在-25度和25度之间。

也可以将一组图像作为输入，要注意这时输入参数是images而不再是image。
在这里插入图片描述
并且imgaug中，images是支持不同大小的图像的。

base class: augment

class imgaug.augmenters.meta.Augmenter(seed=None, name=None, random_state='deprecated', deterministic='deprecated')

基本上各种增强方法都是继承了Augmenter这个类，在刚刚的使用例子中提到如果传参使用image就是增强单张图像，使用images就是多张，我们看看源码具体是如何实现的。那么这就首先要来看Augmenter这个class的__call__()方法。

def __call__(self, *args, **kwargs):
        """Alias for :func:`~imgaug.augmenters.meta.Augmenter.augment`."""
        return self.augment(*args, **kwargs)

它实际上调用的是本身的augment的方法。

def augment(self, return_batch=False, hooks=None, **kwargs):

augment方法的固定传参只有两个，一个是return_batch，默认是False。另一个是hooks。这两个参数我们都可以暂时不管它。

在具体的实现上，这个方法对你的传入参数其实是有要求的。

expected_keys = ["images", "heatmaps", "segmentation_maps",
                         "keypoints", "bounding_boxes", "polygons",
                         "line_strings"]
        expected_keys_call = ["image"] + expected_keys

它列举了一些需要被增强的数据的类型，包括图像，关键点等。你传入的kwargs中至少要有一个key包含在expected_keys中。

接下来会构建一个batch，batch中就是你想增强的数据。并按照你设定的方法进行增强处理。

batch = UnnormalizedBatch(
            images=images,
            heatmaps=kwargs.get("heatmaps", None),
            segmentation_maps=kwargs.get("segmentation_maps", None),
            keypoints=kwargs.get("keypoints", None),
            bounding_boxes=kwargs.get("bounding_boxes", None),
            polygons=kwargs.get("polygons", None),
            line_strings=kwargs.get("line_strings", None)
        )
batch_aug = self.augment_batch_(batch, hooks=hooks)

for key in kwargs:
     if key == "image":
         attr = getattr(batch_aug, "images_aug")
         result.append(attr[0])
     else:
         result.append(getattr(batch_aug, "%s_aug" % (key,)))

增强的组合

在imgaug中可以将多个增强方法放在一起使用。增强方法的组合方式也有多种。

sequential

classimgaug.augmenters.meta.Sequential(children=None, random_order=False, seed=None, name=None, random_state='deprecated', deterministic='deprecated')

Sequential的传入参数是一组augmenter，并且在使用时会顺序的执行。也就是你的第二个增强方法要增强的对象，是经过第一个增强方法增强后的结果。
如下例子：执行的顺序是仿射变化，高斯模糊，然后crop。所以你可以明显看到，旋转后空出来的黑边上也有高斯模糊的效果。
在这里插入图片描述
假如调换一下高斯模糊和仿射的顺序。得到的结果中黑色区域就没有模糊效果了。

someof和oneof

class imgaug.augmenters.meta.SomeOf(n=None, children=None, random_order=False, seed=None, name=None, random_state='deprecated', deterministic='deprecated')

someof可以随机选择多个augmenter中的几个，并用于增强你给的输入图像。它的第一个传入参数n代表了你需要的subset的大小，也可以把它指定成一个tuple，比如(0,None)。None在这里表示最大值。
在这里插入图片描述

class imgaug.augmenters.meta.OneOf(children, seed=None, name=None, random_state='deprecated', deterministic='deprecated')

oneof就是每次只从你给定的增强方法中选择一个来使用。
在这里插入图片描述

sometimes

class imgaug.augmenters.meta.Sometimes(p=0.5, then_list=None, else_list=None, seed=None, name=None, random_state='deprecated', deterministic='deprecated')

sometimes针对的是一组图像，它的作用是只对图像中指定比例进行增强。
如下图，下图中有一半图像被添加了高斯噪声，有一半则经过了仿射变换。

在这里插入图片描述

增强的种类

针对图像的增强，按照实现的效果可以分为以下几类：

算术
1. add：在原像素上加上一个值，包括Add：添加单个值，AddElementwise：给像素点添加不同的值，添加不同类型的noise等。
2. multiply：在原像素上乘上一个值，包括Multiply：乘单个值，MultiplyElementwise：每个像素乘不同的值。
3. cut：将图中某个区域填充成特定值。包括Cutout：填充一个矩形区域。Dropout：用0填充指定比例的像素。
4. replace：ReplaceElementwise：用给定值填充指定比例的像素。Salt：用椒盐噪声填充像素。
5. Invert：反转图像中所有的像素值。包括Invert：把value改为255-value。Solarize：反转超过给定阈值的像素值。
艺术
1. cartoon：支持大小在200-800间的图像。
blend
blend: 混合两张图片。包括BlendAlpha，以代码为例，输入factor，fg，bg等。返回的结果是factor*fg+(1-factor)*bg。此外还包括BlendAlphaMask：使用一个mask，BlendAlphaElementwise：每个像素选取不同的factor。
```
classimgaug.augmenters.blend.BlendAlpha(factor=(0.0, 1.0), foreground=None, background=None, per_channel=False, seed=None, name=None, random_state='deprecated', deterministic='deprecated'
```
blur
blur：对图像添加模糊效果。包括GaussianBlur：高斯模糊，AverageBlur：均值模糊，MedianBlur：中值模糊等。
color
1. ColorSpace： colorspace相关的增强算法，会进行颜色空间的转换。包括WithColorspace：从a空间转到b，在b上做增强后转回a。WithBrightnessChannels：从某空间转到一个包含亮度通道的空间，修改亮度后转回去原空间。ChangeColorspace：将图片从a空间转到b空间。Grayscale：将图片转成灰度图。
2. Temperature：包括ChangeColorTemperature，改变图片的色调。
3. Quantization：包括KMeansColorQuantization：使用聚类方法分配像素，并用聚类中心取代像素值。UniformColorQuantization：使用某种距离算法将像素分为N个bins。
contrast
contrast：包括各种对比度调整算法，比如GammaContrast，SigmoidContrast等。
Convolve
convolve：包括一些可以用卷积核实现的增强操作，比如说自定义卷积核，再比如说锐化，边缘检测等。
flip
flip：包括水平翻转，垂直翻转，
geometric
geometric：一些几何变化，包括仿射，缩放，平移，旋转等。

针对关键点的增强

关键点是图像中特点的点，一般标记成位置坐标的形式。当你对图像使用几何类的增强方法时，它的像素位置会发生变化，那么关键点的位置也可能发生改变。

imgaug中的增强方法，可以将image的keypoint也作为输入，让keypoint随着图像一起改变。

在这里插入图片描述
图中是一个大小为（389，259）的袋鼠图片，它包括五个关键点，分别是左眼、右眼、鼻子、左手、右手。使用imgaug中提供的类将它们封装好。

imgaug.augmentables.kps.Keypoint
是一个简单的类，用于标记单个关键点。
imgaug.augmentables.kps.KeypointsOnImage
将一组关键点组合在一起，初始化时KeypointsOnImage(keypoints, shape)，其中keypoints是关键点的列表，shape是对应的图像的大小。

接下来在图片和关键点上施加一个仿射变化。这个变化涉及到了平移和旋转。
可以看到关键点也随着图像的变化发生了变化。
在这里插入图片描述

针对包围框的增强

和关键点类似，当对图像做几何类的增强变化时，它的包围框也可能受到影响。

imgaug中的增强方法，也可以把包围框作为输入，让它随着图像一起变化。
在这里插入图片描述
图中是一个大小为（298，477）的图片，包括两个小动物，每个动物都有它自己的bounding box。imgaug提供了api将包围框封装起来。

imgaug.augmentables.bbs.BoundingBox(x1, y1, x2, y2, label=None)
是一个简单的类，用于标记一个包围框。
imgaug.augmentables.bbs.BoundingBoxesOnImage(bounding_boxes, shape)
包含一个图片中的一组包围框，它的传入参数有两个，第一个是包围框的list，第二个是对应的图像的shape。

接下来在图片和包围框上施加一个仿射变化。这个变化涉及到了平移和旋转。
可以看到包围框也随着图像的变化发生了变化。

在这里插入图片描述