Datawhale AI 学习笔记：数据增强，提升模型表现

最新推荐文章于 2024-09-04 20:23:24 发布

m0_51588793

最新推荐文章于 2024-09-04 20:23:24 发布

阅读量676

点赞数 24

文章标签：学习笔记

本文链接：https://blog.csdn.net/m0_51588793/article/details/140576729

版权

Part1 数据增强基础

数据增强是一种在机器学习和深度学习领域常用的技术，尤其是在处理图像和视频数据时。数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。

在baseline中，我们使用PyTorch框架来加载和增强图像数据：

train_loader = torch.utils.data.DataLoader(
    FFDIDataset(train_label['path'], train_label['target'], 
            transforms.Compose([
                        transforms.Resize((256, 256)), #改变图像的大小
                        transforms.RandomHorizontalFlip(),#随机水平翻转
                        transforms.RandomVerticalFlip(),#随机垂直翻转
                        transforms.ToTensor(),#转换为张量
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=True, num_workers=4, pin_memory=True
)

val_loader = torch.utils.data.DataLoader(
    FFDIDataset(val_label['path'], val_label['target'], 
            transforms.Compose([
                        transforms.Resize((256, 256)),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=False, num_workers=4, pin_memory=True
)

Part2 常见数据增强方法

常见的几何变换有：

调整大小: Resize可以将图像调整到指定的大小。
随机裁剪: RandomCrop和RandomResizedCrop可以随机裁剪图像。
中心裁剪: CenterCrop从图像的中心裁剪出指定大小。
五裁剪和十裁剪: FiveCrop和TenCrop分别裁剪出图像的四个角和中心区域。
翻转: RandomHorizontalFlip和RandomVerticalFlip可以水平或垂直翻转图像。
旋转: RandomRotation可以随机旋转图像。
仿射变换: RandomAffine可以进行随机的仿射变换。
透视变换: RandomPerspective可以进行随机的透视变换。

常见的颜色变换有：

颜色抖动: ColorJitter可以随机改变图像的亮度、对比度、饱和度和色调。
灰度化: Grayscale和RandomGrayscale可以将图像转换为灰度图。
高斯模糊: GaussianBlur可以对图像进行高斯模糊。
颜色反转: RandomInvert可以随机反转图像的颜色。
颜色 posterize: RandomPosterize可以减少图像中每个颜色通道的位数。
颜色 solarize: RandomSolarize可以反转图像中所有高于阈值的像素值。

还有一些自动增强的方法：

自动增强: AutoAugment可以根据数据集自动学习数据增强策略。
随机增强: RandAugment可以随机应用一系列数据增强操作。
TrivialAugmentWide:提供与数据集无关的数据增强。
AugMix:通过混合多个增强操作进行数据增强。

Part3 进阶数据增强方法

Mixup

MixUp是一种数据增强技术，其原理是通过将两个不同的图像及其标签按照一定的比例混合，从而创建一个新的训练样本。这种方法可以增加训练数据的多样性，提高模型的泛化能力，并减少过拟合的风险。MixUp方法中混合比例是一个超参数，通常称为alpha。alpha是一个在0到1之间的值，表示混合的比例。例如，alpha=0.5意味着两个图像各占新图像的一半。

在我的代码中，我是这样实现的

class Mixup:
    def __init__(self, alpha=1.0):
        self.alpha = alpha  # alpha 是 Beta 分布的超参数，用于控制 mixup 的程度。值越高，混合的程度越大。
    
    def __call__(self, x, y):
        # 如果 alpha 大于 0，则从 Beta 分布中采样 lambda
        if self.alpha > 0:
            lam = np.random.beta(self.alpha, self.alpha)
        else:
            # 如果 alpha 不大于 0，则不进行 mixup，lam 设为 1
            lam = 1
        
        batch_size = x.size()[0]  # 获取当前批次的样本数量
        index = torch.randperm(batch_size).cuda()  # 生成当前批次样本的随机索引
        
        # 创建混合后的图像数据
        mixed_x = lam * x + (1 - lam) * x[index, :]
        
        # 将标签 y_a 与 y_b 分别设置为当前批次标签和使用随机索引重排后的标签
        y_a, y_b = y, y[index]
        
        return mixed_x, y_a, y_b, lam  # 返回混合后的图像数据、原标签、混合后的标签和 lam 值


def mixup_criterion(criterion, pred, y_a, y_b, lam):
    return lam * criterion(pred, y_a) + (1 - lam) * criterion(pred, y_b)
    # 计算 mixup 损失函数的加权平均值
    # lam * criterion(pred, y_a) 计算原标签 y_a 的损失
    # (1 - lam) * criterion(pred, y_b) 计算混合标签 y_b 的损失
    # 最终损失为这两个损失的加权平均

Part4 我的工作

在efficientnet_b0预训练模型的基础上，我测试了使用Mix up和不使用Mix up两种训练模式的效果。训练20个epoch，每个epoch10000图片，训练后在Kaggle上进行测试，使用Mix up的得分为0.9185，不使用Mix up的得分为0.9830，可以发现Mix up并没有很好的解决Deepfake的问题。

在文章数据增强实测之mixup-CSDN博客提到了mix up并没有很好的提升，作者提出可能原因的是mixup由于采用的都是合成图像训练，需要更多的epochs才能取得较好的效果，而且在提出mix up 的论文的baseline指标都比较低，因此看起来是有提升的，而我们的baseline是已经预训练的，这种增强方法的效果就很有限了。

m0_51588793

关注

24
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI 学习笔记：数据增强，提升模型表现

提到了mix up并没有很好的提升，作者提出可能原因的是mixup由于采用的都是合成图像训练，需要更多的epochs才能取得较好的效果，而且在提出mix up 的论文的baseline指标都比较低，因此看起来是有提升的，而我们的baseline是已经预训练的，这种增强方法的效果就很有限了。这种方法可以增加训练数据的多样性，提高模型的泛化能力，并减少过拟合的风险。数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。在我的代码中，我是这样实现的。
复制链接

扫一扫