Datewhale夏令营：数据增强，提升模型表现---Task3

最新推荐文章于 2024-07-31 17:59:48 发布

太阳神小赖

最新推荐文章于 2024-07-31 17:59:48 发布

阅读量1.9k

点赞数 52

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/2302_80309108/article/details/140577232

版权

Part1 数据增强基础

数据增强是一种在机器学习和深度学习领域常用的技术，尤其是在处理图像和视频数据时。数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。数据增强涉及对原始数据进行一系列的变换操作，生成新的训练样本。这些变换模拟了真实世界中的变化，对于图像而言，数据增强包括例如视角、光照、遮挡等情况，使得模型能够学习到更加鲁棒的特征表示。

如果数据增强的变换操作与目标任务的实际场景不符，比如在不需要旋转的图像任务中过度使用旋转，那么这些变换可能会引入无关的噪音。此外过度的数据增强，比如极端的亮度调整、对比度变化或大量的噪声添加，可能会导致图像失真，使得模型难以学习到有效的特征。

在之前的代码中我们使用PyTorch框架来加载和增强图像数据：

图像大小调整：使用 transforms.Resize((256,256)) 将所有图像调整到256x256像素的尺寸，这有助于确保输入数据的一致性。
随机水平翻转：transforms.RandomHorizontalFlip() 随机地水平翻转图像，这种变换可以模拟物体在不同方向上的观察，从而增强模型的泛化能力。
随机垂直翻转：transforms.RandomVerticalFlip() 随机地垂直翻转图像，这同样是为了增加数据多样性，让模型能够学习到不同视角下的特征。
转换为张量：transforms.ToTensor() 将图像数据转换为PyTorch的Tensor格式，这是在深度学习中处理图像数据的常用格式。
归一化：transforms.Normalize([0.485,0.456,0.406] , [0.229,0.224,0.225]) 对图像进行归一化处理，这里的均值和标准差是根据ImageNet数据集计算得出的，用于将图像像素值标准化，这有助于模型的训练稳定性和收敛速度。

train_loader = torch.utils.data.DataLoader(
    FFDIDataset(train_label['path'].head(1000), train_label['target'].head(1000), 
            transforms.Compose([
                        transforms.Resize((256, 256)),
                        transforms.RandomHorizontalFlip(),
                        transforms.RandomVerticalFlip(),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=True, num_workers=4, pin_memory=True
)

val_loader = torch.utils.data.DataLoader(
    FFDIDataset(val_label['path'].head(1000), val_label['target'].head(1000), 
            transforms.Compose([
                        transforms.Resize((256, 256)),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=False, num_workers=4, pin_memory=True
)

在深度学习中，对输入数据进行归一化是一个标准步骤。归一化有助于加快模型的收敛速度，并提高数值稳定性。对于验证集，应该避免使用如随机翻转等可能引入不必要噪音的增强方法。通常，验证集只需要进行必要的预处理，如调整大小和归一化。

Part2 常见数据增强方法

torchvision是一个流行的开源Python包，它提供了许多用于深度学习计算机视觉任务的工具和预训练模型。在torchvision中，数据增强方法主要位于 torchvision.transforms和torchvision.transforms.v2模块中。这些增强方法可以用于图像分类、目标检测、图像分割和视频分类等各种任务。

几何变换

调整大小: Resize可以将图像调整到指定的大小。
随机裁剪: RandomCrop和RandomResizedCrop可以随机裁剪图像。
中心裁剪: CenterCrop从图像的中心裁剪出指定大小。
五裁剪和十裁剪: FiveCrop和TenCrop分别裁剪出图像的四个角和中心区域。
翻转: RandomHorizontalFlip和RandomVerticalFlip可以水平或垂直翻转图像。
旋转: RandomRotation可以随机旋转图像。
仿射变换: RandomAffine可以进行随机的仿射变换。
透视变换: RandomPerspective可以进行随机的透视变换。

颜色变换

颜色抖动: ColorJitter可以随机改变图像的亮度、对比度、饱和度和色调。
灰度化: Grayscale和RandomGrayscale可以将图像转换为灰度图。
高斯模糊: GaussianBlur可以对图像进行高斯模糊。
颜色反转: RandomInvert可以随机反转图像的颜色。
颜色 posterize: RandomPosterize可以减少图像中每个颜色通道的位数。
颜色 solarize: RandomSolarize可以反转图像中所有高于阈值的像素值。

自动增强

自动增强: AutoAugment可以根据数据集自动学习数据增强策略。
随机增强: RandAugment可以随机应用一系列数据增强操作。
TrivialAugmentWide:提供与数据集无关的数据增强。
AugMix:通过混合多个增强操作进行数据增强。

Part3 进阶数据增强方法

Mixup

MixUp是一种数据增强技术，其原理是通过将两个不同的图像及其标签按照一定的比例混合，从而创建一个新的训练样本。这种方法可以增加训练数据的多样性，提高模型的泛化能力，并减少过拟合的风险。MixUp方法中混合比例是一个超参数，通常称为alpha。alpha是一个在0到1之间的值，表示混合的比例。例如，alpha=0.5意味着两个图像各占新图像的一半。