Datawhale2024年AI夏令营第二期：CV图像--学习笔记-CSDN博客

本文链接：https://blog.csdn.net/Yixuanxia/article/details/140391295

Deepfake攻防--图像赛道是该夏令营第二期的学习活动（“CV图像”方向），是于蚂蚁集团举办的“外滩大会-全球Deepfake攻防挑战赛”开展的实践学习——适合想入门、了解并实践，关于深度学习和计算机视觉方向的学习者参与。此次学习活动的速通手册如下：从零入门CV图像竞赛(Deepfake攻防) - 飞书云文档 (feishu.cn)

本文是作者在完成baseline的基础上，对所学知识点进行的总结概括，欢迎各位大佬交流讨论、批评指正。

一、问题背景

背景简介

所谓Deepfake，就是一种使用人工智能技术生成的伪造媒体，特别是视频和音频，它们看起来或听起来非常真实，但实际上是由计算机生成的，例如AI换脸技术、语音模拟等。该技术虽然在多个领域展现出其创新潜力，但其滥用也带来了一系列严重的危害。

赛事任务

该比赛的任务是判断人脸图像是否为Deepfake图像，并输出其为Deepfake图像的概率评分，本质是一个图像二分类问题。

赛题数据

MultiFF数据集基于蚂蚁集团发布的《假数字人脸检测金融应用技术规范》构建而成。同时，结合数字业务中的实际防御经验，纳入真正多元化的深度伪造攻击，主要包括：

1.攻击类型广泛：包括换脸、激活、属性编辑、全脸合成、音频驱动人脸生成、人脸还原、数字对抗样本、自动化PS等常见类型。

2.多种生成方法：超过50种Deepfake生成方法应用于整个数据集。除了经典的GANs模型外，生成模型还完全覆盖了Diffusion系列的全新生成式AI模型。攻击生成范式包括图像到图像生成、文本到图像生成、文本到语音生成、文本到视频生成等。

以下展示的是deepfake中的trainset的部分数据集。

评价指标

比赛的性能评估，主要使用ROC曲线中的 AUC（ROC 曲线下的面积）作为指标。AUC的取值范围一般在0.5到1之间。如果AUC指标不能区分排名，则会使用TPR@FPR=1E-3作为辅助参考。

二、模型训练

Datawhale夏令营提供的baseline实现流程，如下图所示。我们需要在此模型的基础上，首先能运行baseline，再对模型的内容进行改进。

导入数据与相关库

import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic = False
torch.backends.cudnn.benchmark = True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset
import timm
import time

import pandas as pd
import numpy as np
import cv2
from PIL import Image
from tqdm import tqdm_notebook
# 读取数据集txt的标签
train_label = pd.read_csv('/kaggle/input/deepfake/phase1/trainset_label.txt')
val_label = pd.read_csv('/kaggle/input/deepfake/phase1/valset_label.txt')
#设置标签对应的数据集位置
train_label['path'] = '/kaggle/input/deepfake/phase1/trainset/' + train_label['img_name']
val_label['path'] = '/kaggle/input/deepfake/phase1/valset/' + val_label['img_name']

加载预训练模型

timm（Pytorch Image Models）是一个基于Pytorch实现的计算机视觉模型库，通过timm可以轻松的搭建出各种sota模型（目前内置预训练模型592个，包含resnet系列、efficientnet系列、densenet系列、vit系列、vgg系列、inception系列、mobilenet系列、xcit系列等等），并进行迁移学习。预训练模型是指在特定的大型数据集（如ImageNet）上预先训练好的神经网络模型。

EfficientNet是一种高效的卷积神经网络（CNN）架构，它通过一种新颖的网络缩放方法来提升模型的性能和效率。EfficientNet 的核心是其 compound scaling 方法，该方法通过一个复合系数统一缩放网络的深度、宽度和分辨率。该系列从EfficientNet-b0到EfficientNet-b8再加上EfficientNet-l2和Noisy Student共11个系列的版本。而EfficientNet_b0作为EfficientNet系列的基线模型，它的参数规模最小，对应的Top-1的准确度较低。

这里使用的是timm库中的efficientnet_b0模型，训练图像head3000、训练轮数epoch=2、batch_size=70、发现他在该问题上具有较好的性能和鲁棒性，最终分数为0.801，其缺点是训练耗时过长。

import timm
model = timm.create_model('efficientnet_b0', pretrained=True, num_classes=2)
model = model.cuda()

图像数据增强

数据增强，是一种在机器学习和深度学习中提升模型性能的重要技术，其主要目的是增加数据的多样性，从而提高模型的泛化能力，常见的数据增强方法有几何变换、颜色变换、自动增强等。其中，几何变换操作有大小调整、随机裁剪、随机翻转、仿射变换、投射变换等。

在本案例的训练集中采用了大小调整、随机翻转、转化为张量、归一化等方法，使在增加数据多样性的同时，也考虑到模型稳定性和收敛速度。此外，对于验证集，应避免引入不必要噪音的增强方法。所以，验证集只需要进行必要的预处理，如调整大小和归一化，避免使用如随机翻转等操作。

#训练集--数据增强，主要目的是增加数据的多样性
train_loader = torch.utils.data.DataLoader(
#     FFDIDataset(train_label['path'], train_label['target'], 
        FFDIDataset(train_label['path'].head(3000), train_label['target'].head(3000), #选取前3000的图片进行训练
            transforms.Compose([
                        transforms.Resize((256, 256)),#图像大小调整为256*256
                        transforms.RandomHorizontalFlip(),#随机水平翻转图像
                        transforms.RandomVerticalFlip(),#随机垂直翻转图像
                        transforms.ColorJitter(brightness=.5, hue=.3),
                        transforms.ToTensor(),#将图像转换成tensor类型
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])#图像归一化处理
        ])
    ), batch_size=70, shuffle=True, num_workers=4, pin_memory=True
)
# print(train_loader.__dict__)
#验证集--数据增强，原理同上。但验证集要避免噪声干扰，所以只需要调整大小、转换成tensor类型、归一化即可
val_loader = torch.utils.data.DataLoader(
#     FFDIDataset(val_label['path'], val_label['target'], 
    FFDIDataset(val_label['path'].head(3000), val_label['target'].head(3000), #选取前3000的图片进行训练
            transforms.Compose([
                        transforms.Resize((256, 256)),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=32, shuffle=False, num_workers=4, pin_memory=True
)

模型训练与验证

该部分为当模型调用train、validate、predict函数时，对应的具体操作内容。

#设置成训练模式
def train(train_loader, model, criterion, optimizer, epoch):
    batch_time = AverageMeter('Time', ':6.3f')
    losses = AverageMeter('Loss', ':.4e')
    top1 = AverageMeter('Acc@1', ':6.2f')
    progress = ProgressMeter(len(train_loader), batch_time, losses, top1)

    model.train()

    end = time.time()
    for i, (input, target) in enumerate(train_loader):
        input = input.cuda(non_blocking=True)
        target = target.cuda(non_blocking=True)
        #前向传播
        output = model(input)
        #计算和更新损失
        loss = criterion(output, target)
        losses.update(loss.item(), input.size(0))
        #计算准确度
        acc = (output.argmax(1).view(-1) == target.float().view(-1)).float().mean() * 100
        top1.update(acc, input.size(0))
        #梯度归零，也就是清空之前的梯度
        optimizer.zero_grad()
        #反向传播
        loss.backward()
        #参数更新
        optimizer.step()

        #计算消耗时间
        batch_time.update(time.time() - end)
        end = time.time()

        if i % 100 == 0:
            progress.pr2int(i)
#设置成验证模式
def validate(val_loader, model, criterion):
    batch_time = AverageMeter('Time', ':6.3f')
    losses = AverageMeter('Loss', ':.4e')
    top1 = AverageMeter('Acc@1', ':6.2f')
    progress = ProgressMeter(len(val_loader), batch_time, losses, top1)
    model.eval()

    with torch.no_grad():
        end = time.time()
        for i, (input, target) in tqdm_notebook(enumerate(val_loader), total=len(val_loader)):
            input = input.cuda()
            target = target.cuda()
            #计算输出
            output = model(input)
            loss = criterion(output, target)
            #计算准确率和损失函数
            acc = (output.argmax(1).view(-1) == target.float().view(-1)).float().mean() * 100
            losses.update(loss.item(), input.size(0))
            top1.update(acc, input.size(0))
            #计算消耗时间
            batch_time.update(time.time() - end)
            end = time.time()

        # TODO: 这也应该用ProgressMeter来完成
        print(' * Acc@1 {top1.avg:.3f}'
              .format(top1=top1))
        return top1
# 转换到评估模式
def predict(test_loader, model, tta=10):
    model.eval()
    
    test_pred_tta = None
    for _ in range(tta):
        test_pred = []
        with torch.no_grad():
            end = time.time()
            for i, (input, target) in tqdm_notebook(enumerate(test_loader), total=len(test_loader)):
                input = input.cuda()
                target = target.cuda()

                #计算输出
                output = model(input)
                output = F.softmax(output, dim=1)
                output = output.data.cpu().numpy()

                test_pred.append(output)
        test_pred = np.vstack(test_pred)
    
        if test_pred_tta is None:
            test_pred_tta = test_pred
        else:
            test_pred_tta += test_pred
    
    return test_pred_tta

模型预测

#预测集--数据增强（调整大小、转换成张量、归一化）
test_loader = torch.utils.data.DataLoader(
    FFDIDataset(val_label['path'], val_label['target'], 
            transforms.Compose([
                        transforms.Resize((256, 256)),
                        transforms.ToTensor(),
                        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
    ), batch_size=40, shuffle=False, num_workers=4, pin_memory=True
)
#图像预测并将结果写入csv文件
val_label['y_pred'] = predict(test_loader, model, 1)[:, 1]
val_label[['img_name', 'y_pred']].to_csv('submit.csv', index=None)