Datawhale AI夏令营-CV图像方向-Task1+2-CSDN博客

本文链接：https://blog.csdn.net/horsemaple/article/details/140425025

写在前面

Inclusion・The Global Multimedia Deepfake Detection | Kaggle 比赛链接

baseline提交并获取得分，但是具体知识点还没完全掌握，所以后续深入代码后再行补充

内容涉及

深入探讨Deepfake技术的原理、应用案例以及检测方法。通过实践项目和案例研究体验Deepfake技术的制作过程，并学习如何辨别Deepfake内容。
知识点涉及：
- 深度学习概念
- AIGC 和 Deepfake的关系
- 深度学习模型原理
- 构建Deepfake攻防模型
- 数据集处理与增强

Task 1：了解Deepfake & baseline提交

Deepfake

概念

Deepfake是一种使用人工智能技术生成的伪造媒体，特别是视频和音频，它们看起来或听起来非常真实，但实际上是由计算机生成的。这种技术通常涉及到深度学习算法，特别是生成对抗网络（GANs），它们能够学习真实数据的特征，并生成新的、逼真的数据

识别

如果想要人工识别Deepfake的图片，可以通过以下逻辑步骤进行：

首先，观察图片的细节。仔细检查人物的面部特征，尤其是眼睛和嘴巴，看是否有不自然的眨眼频率或口型与说话内容不同步的现象。
接着，检查光线和阴影。分析图片中的光源是否一致，阴影的方向是否与光源相符，不自然的光线或阴影可能是图片被修改的迹象。
然后，分析像素。放大图片，寻找是否有模糊或像素化的部分，这可能是Deepfake技术留下的瑕疵。
此外，注意背景。检查背景中是否有不协调的元素，比如物体边缘是否平滑，背景中是否有不自然的重复模式。

深度伪造技术

深度伪造技术通常可以分为四个主流研究方向：

面部交换专注于在两个人的图像之间执行身份交换；
面部重演强调转移源运动和姿态；
说话面部生成专注于在角色生成中实现口型与文本内容的自然匹配；
面部属性编辑旨在修改目标图像的特定面部属性；

深度学习与Deepfake

深度学习是一种强大的机器学习技术，它通过模拟人脑处理信息的方式，使计算机能够从大量数据中自动学习和识别模式。深度学习模型，尤其是卷积神经网络（CNN），能够识别图像和视频中的复杂特征。在Deepfake检测中，模型可以学习识别伪造内容中可能存在的微妙异常

机器学习与深度学习

核心思想：通过算法和统计模型，机器学习允许计算机从经验中学习，识别模式，并做出预测或决策。

监督学习：算法从标记的训练数据中学习，这些数据包含了输入和期望的输出。
无监督学习：算法处理未标记的数据，试图找出数据中的结构和模式。

Task2：从baseline入门深度学习

Task 2的代码地址

https://www.kaggle.com/code/finlay/deepfake-ffdi-ch2/

Task 2学习手册

‌⁠‬‬‌‍⁠⁠‬‍⁠‌‌⁠‍⁠‍‌‬‬‌Task2：从baseline入门深度学习 - 飞书云文档 (feishu.cn)

参考链接

https://www.kaggle.com/discussions/getting-started/429326
https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-deep-learning
https://ml-cheatsheet.readthedocs.io/en/latest/activation_functions.html
https://encord.com/blog/activation-functions-neural-networks/

从机器学习到深度学习

机器学习：通常使用相对简单的算法（如线性回归、决策树）处理数据。需要人工设计特征工程来提高模型性能。
深度学习：通过深层神经网络自动学习特征，能够处理和学习高维度和复杂的数据模式，适用于图像识别、自然语言处理等复杂任务。
机器学习算法通过数据进行训练，识别数据中的模式和规律，并在此基础上进行预测或决策。随着数据量的增加和算法的优化，机器学习模型能够不断改进其性能，使其在特定任务上表现得越来越好。
- 线性回归：
  - 线性假设：假设输入特征与输出标签之间存在线性关系。
  - 独立同分布（IID）：训练集中的数据是独立且同分布的。
- 决策树：
  - 独立性假设：每个特征在决策过程中是相互独立的。
  - 连续性假设：特征可以是连续的或离散的，算法通过找到最佳分割点来构建树。
- 神经网络：
  - 非线性假设：通过非线性激活函数来建模数据中的复杂非线性关系。
  - 层次化假设：通过分层结构来学习数据的不同层次和抽象。

学习路线

对于初学者来说，通常建议先学习基础的机器学习知识，再逐步过渡到深度学习。
首先了解什么是机器学习，它的应用领域，以及它的主要类型（监督学习、无监督学习、半监督学习和强化学习）。
然后掌握一些经典的机器学习算法，如线性回归、逻辑回归、决策树、随机森林、SVM（支持向量机）、K-近邻（KNN）等。
接着从基础的神经网络结构开始，理解神经元、层、前向传播和反向传播等概念。
学习如何使用深度学习框架，如TensorFlow或PyTorch，它们提供了构建和训练深度学习模型所需的工具和API。
掌握卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）和Transformer等模型。

注意点

虽然 ChatGPT 是深度学习在自然语言处理领域的典型应用，并且深度学习在许多领域都取得了显著的成就，
但深度学习并不能解决所有问题。
深度学习通常需要大量的数据来训练模型，对于某些领域或问题，获取足够的高质量数据可能是不现实的。

深度学习的训练

梯度下降

https://blog.csdn.net/google19890102/article/details/69942970
梯度下降是一种优化算法，用于最小化函数。
梯度下降算法基于这样一个原理：损失函数的梯度指向函数增长最快的方向。
因此，如果我们希望减少损失函数的值，我们就需要沿着梯度的反方向调整模型的参数

Pytorch训练代码

def train(train_loader, model, criterion, optimizer, epoch):

    # switch to train mode
    model.train()

    end = time.time()
    for i, (input, target) in enumerate(train_loader):
        input = input.cuda(non_blocking=True)
        target = target.cuda(non_blocking=True)

        # compute output
        output = model(input)
        loss = criterion(output, target)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()