昇思25天学习打卡营第24天|Diffusion扩散模型

今天是参加昇思25天学习打卡营的第24天,今天打卡的课程是“Diffusion扩散模型”,这里做一个简单的分享。

1.简介

本次学习的扩散模型(Diffusion Models)主要是基于denoising diffusion probabilistic model (DDPM)的模型。DPM已经在(无)条件图像/音频/视频生成领域取得了较多显著的成果,现有的比较受欢迎的的例子包括由OpenAI主导的GLIDEDALL-E 2、由海德堡大学主导的潜在扩散和由Google Brain主导的图像生成

2.模型架构及原理

如果将Diffusion与其他生成模型(如Normalizing Flows、GAN或VAE)进行比较,它并没有那么复杂,它们都将噪声从一些简单分布转换为数据样本,Diffusion也是从纯噪声开始通过一个神经网络学习逐步去噪,最终得到一个实际图像。 Diffusion对于图像的处理包括以下两个过程:

  • 我们选择的固定(或预定义)正向扩散过程 𝑞𝑞 :它逐渐将高斯噪声添加到图像中,直到最终得到纯噪声
  • 一个学习的反向去噪的扩散过程 𝑝𝜃𝑝𝜃 :通过训练神经网络从纯噪声开始逐渐对图像去噪,直到最终得到一个实际的图像

Image-2

由 𝑡𝑡 索引的正向和反向过程都发生在某些有限时间步长 𝑇𝑇(DDPM作者使用 𝑇=1000𝑇=1000)内。从𝑡=0𝑡=0开始,在数据分布中采样真实图像 𝐱0𝑥0(本文使用一张来自ImageNet的猫图像形象的展示了diffusion正向添加噪声的过程),正向过程在每个时间步长 𝑡𝑡 都从高斯分布中采样一些噪声,再添加到上一个时刻的图像中。假定给定一个足够大的 𝑇𝑇 和一个在每个时间步长添加噪声的良好时间表,您最终会在 𝑡=𝑇𝑡=𝑇 通过渐进的过程得到所谓的各向同性的高斯分布

整个模型主要包括两个部分:

  • 前向扩散过程
    在这里插入图片描述
  • 反向扩散过程
    在这里插入图片描述
  • 训练过程
    在这里插入图片描述
    在每一轮的训练过程中,包含以下内容:
  1. 每一个训练样本选择一个随机时间步长 t。
  2. 将 time step t 对应的高斯噪声应用到图片中。
  3. 将 time step 转化为对应 embedding。

下面是每一轮详细的训练过程:
在这里插入图片描述

  • 从高斯噪声中生成原始图片(反向扩散过程)
    在这里插入图片描述

上图的 Sample a Gaussian 表示生成随机高斯噪声,Iteratively denoise the image 表示反向扩散过程,如何一步步从高斯噪声变成输出图片。可以看到最终生成的 Denoised image 非常清晰。

注:以上图片引用自文章https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247625397&idx=2&sn=e67b0e7ccf51aeedb4c0ab23310637b5&chksm=e9efe33ede986a28499a27014dcf7b44cbfe5841cf8d95b17f9ab46ab379cb2f237b204e1a9f&scene=27

3.小结

Diffusion模型是文生图任务中的一个重要模型。该模型最重要的两个环节是Difusion的前向扩散和反向扩散的两个过程。前向扩展过程实现了对模型对图像的特征的理解,反向扩展过程则可以通过对前向过程的逆过程来实现的图像的生成,这与文本生成中的编码器-解码器的过程很相似。通过今天的学习和查询相关资料,对基于diffusion的图像生成过程有了一个初步的了解,后续还需要更加深入的学习。

以上是第24天的学习内容,附上今日打卡记录:
在这里插入图片描述

  • 18
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值