Datawhale AI 学习笔记:数据增强,提升模型表现

Part1 数据增强基础

数据增强是一种在机器学习和深度学习领域常用的技术,尤其是在处理图像和视频数据时。数据增强的目的是通过人工方式增加训练数据的多样性,从而提高模型的泛化能力,使其能够在未见过的数据上表现得更好。

在baseline中,我们使用PyTorch框架来加载和增强图像数据:

train_loader = torch.utils.data.DataLoader(
    FFDIDataset(train_label['path'], train_label['target'], 
            transforms.Compose([
                        transforms.Resize((256, 256)), #改变图像的大小
                        transforms.RandomHorizontalFlip(),#随机水平翻转
                        transforms.RandomVerticalFlip(),#随机垂直翻转
                        transforms.ToTensor(),#转换为张量
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=True, num_workers=4, pin_memory=True
)

val_loader = torch.utils.data.DataLoader(
    FFDIDataset(val_label['path'], val_label['target'], 
            transforms.Compose([
                        transforms.Resize((256, 256)),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=False, num_workers=4, pin_memory=True
)

Part2 常见数据增强方法

常见的几何变换有:

  • 调整大小: Resize可以将图像调整到指定的大小。

  • 随机裁剪: RandomCropRandomResizedCrop可以随机裁剪图像。

  • 中心裁剪: CenterCrop从图像的中心裁剪出指定大小。

  • 五裁剪和十裁剪: FiveCropTenCrop分别裁剪出图像的四个角和中心区域。

  • 翻转: RandomHorizontalFlipRandomVerticalFlip可以水平或垂直翻转图像。

  • 旋转: RandomRotation可以随机旋转图像。

  • 仿射变换: RandomAffine可以进行随机的仿射变换。

  • 透视变换: RandomPerspective可以进行随机的透视变换。

常见的颜色变换有:

  • 颜色抖动: ColorJitter可以随机改变图像的亮度、对比度、饱和度和色调。

  • 灰度化: GrayscaleRandomGrayscale可以将图像转换为灰度图。

  • 高斯模糊: GaussianBlur可以对图像进行高斯模糊。

  • 颜色反转: RandomInvert可以随机反转图像的颜色。

  • 颜色 posterize: RandomPosterize可以减少图像中每个颜色通道的位数。

  • 颜色 solarize: RandomSolarize可以反转图像中所有高于阈值的像素值。

还有一些自动增强的方法:

  • 自动增强: AutoAugment可以根据数据集自动学习数据增强策略。

  • 随机增强: RandAugment可以随机应用一系列数据增强操作。

  • TrivialAugmentWide:提供与数据集无关的数据增强。

  • AugMix:通过混合多个增强操作进行数据增强。

Part3 进阶数据增强方法

Mixup

MixUp是一种数据增强技术,其原理是通过将两个不同的图像及其标签按照一定的比例混合,从而创建一个新的训练样本。这种方法可以增加训练数据的多样性,提高模型的泛化能力,并减少过拟合的风险。MixUp方法中混合比例是一个超参数,通常称为alphaalpha是一个在0到1之间的值,表示混合的比例。例如,alpha=0.5意味着两个图像各占新图像的一半。

 在我的代码中,我是这样实现的

class Mixup:
    def __init__(self, alpha=1.0):
        self.alpha = alpha  # alpha 是 Beta 分布的超参数,用于控制 mixup 的程度。值越高,混合的程度越大。
    
    def __call__(self, x, y):
        # 如果 alpha 大于 0,则从 Beta 分布中采样 lambda
        if self.alpha > 0:
            lam = np.random.beta(self.alpha, self.alpha)
        else:
            # 如果 alpha 不大于 0,则不进行 mixup,lam 设为 1
            lam = 1
        
        batch_size = x.size()[0]  # 获取当前批次的样本数量
        index = torch.randperm(batch_size).cuda()  # 生成当前批次样本的随机索引
        
        # 创建混合后的图像数据
        mixed_x = lam * x + (1 - lam) * x[index, :]
        
        # 将标签 y_a 与 y_b 分别设置为当前批次标签和使用随机索引重排后的标签
        y_a, y_b = y, y[index]
        
        return mixed_x, y_a, y_b, lam  # 返回混合后的图像数据、原标签、混合后的标签和 lam 值


def mixup_criterion(criterion, pred, y_a, y_b, lam):
    return lam * criterion(pred, y_a) + (1 - lam) * criterion(pred, y_b)
    # 计算 mixup 损失函数的加权平均值
    # lam * criterion(pred, y_a) 计算原标签 y_a 的损失
    # (1 - lam) * criterion(pred, y_b) 计算混合标签 y_b 的损失
    # 最终损失为这两个损失的加权平均

Part4 我的工作

在efficientnet_b0预训练模型的基础上,我测试了使用Mix up和不使用Mix up两种训练模式的效果。训练20个epoch,每个epoch10000图片,训练后在Kaggle上进行测试,使用Mix up的得分为0.9185,不使用Mix up的得分为0.9830,可以发现Mix up并没有很好的解决Deepfake的问题。

在文章数据增强实测之mixup-CSDN博客提到了mix up并没有很好的提升,作者提出可能原因的是mixup由于采用的都是合成图像训练,需要更多的epochs才能取得较好的效果,而且在提出mix up 的论文的baseline指标都比较低,因此看起来是有提升的,而我们的baseline是已经预训练的,这种增强方法的效果就很有限了。

  • 24
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值