【扩散模型】8、GLIDE | 文本指引的图像生成和编辑

在这里插入图片描述

论文:GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

代码:https://link.zhihu.com/?target=https%3A//github.com/openai/glide-text2im

出处:OpenAI

一、背景

在扩散模型经过了一系列发展之后,Openai 开始探索文本条件下的图像生成,并在这篇论文里对比了两种不同的 guidance 策略,分别是通过 CLIP 引导和 classifier-free 的引导。验证了 classifier-free 的方式生成的图片更真实,与提示的文本有更好的相关性。并且使用 classifier-free 的引导的 GLIDE 模型在 35 亿参数的情况下优于 120 亿参数的 DALL-E 模型

在这里插入图片描述

二、方法

作者训练的模型包括:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256
  • 对于 CLIP guidance 模型,还额外训练了一个 64x64 noised ViT-L CLIP

2.1 Text-Conditional Diffusion Models

假设有一个加噪的图片 x t x_t xt,以及一个对应的文本描述 c c c,这个模型预测的就是 p ( x t − 1 ∣ x t , c ) p(x_{t-1}|x_t, c) p(xt1xt,c)

为了让这个文本 condition 生效,首先要将文本编码成 K 个 tokens,然后输入 Transformer 模型,输出文本编码结果

训练过程和 DALLE 类似:

  • 一个 35 亿参数量的 text-conditional 扩散模型,分辨率为 64*64
  • 一个 15 亿参数量的 text-conditional 上采样扩散模型,将分辨率提升至 256x256

2.2 Fine-tuning for classifier-free guidance

初始训练完成后,还需要 finetune base model 来支持 unconditional 图像生成

和 text-conditional 的模型最大的不同是,20% 的 text token 被使用 empty sequence 代替了,这样一来,模型就能同时生成 text-conditional 的输出和无需 text 的输出

2.3 Image Inpainting

扩散模型进行图像修复的基本步骤如下:

  • 初始化:首先,你需要一个扩散模型,这个模型是通过在大量图像数据上进行训练得到的。然后,你需要一个待修复的图片。

  • 设置已知区域和未知区域:在图片中选择一部分作为已知区域(不需要修复的部分),剩余部分作为未知区域(需要修复的部分)。通常情况下,已知区域是完整无损害的图片内容,而未知区域可能是被遮挡或损坏了的图片内容。

  • 采样和替换:接着,在每次采样步骤后, 用 q(xt|x0)(即从扩散过程中某一时刻t得到的概率密度函数)对应于原始图像 x0 的样本替换图像中已经被确定(或者说"固定")了值得那些位置。这个过程会持续多次迭代以逐渐生成最终结果。

  • 微调模型:为了获得更好效果, 需要对该模型进行微调以优化其在此类任务上表现。这包括随机擦除训练示例中某些区域,并将剩余部分与额外条件信息一起输入到模型中。同时还会修改网络结构增加新频道,并将新频道对应输入权重初始化为零

  • 提供低解析度和高解析度信息: 对于上采样(upsampling) 模型来说, 总是提供完整低解析度(low-resolution) 图像, 但只提供高解析度(high-resolution) 图片中未被掩盖(masked out) 的那些地方

  • 生成结果: 经过以上步骤后, 模型就能够根据给定(也就是“固定”)了值得那些位置去推测出其他位置可能出现什么内容并进行填充(restore),从而实现图像修复(inpainting)

之前的很多工作将未经针对 inpainting 任务微调的扩散模型直接用于图像修复,实际上使用扩散模型进行图像修复时,采样流程不变,但需要将图像中的已知区域在每个 sample step 之后使用生成的 q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0) 替换,这样做有一个问题,就是模型在采样的过程中无法看到全局的上下文(只能看到它的噪声版本),偶尔会在我们早期的实验中产生不希望出现的边缘伪影。

所以本文做了一些工作,本文的图像修复过程如下:

  • 训练:首先,使用大量图像数据训练一个扩散模型。这个模型可以学习如何从一个随机噪声开始,逐渐生成出一张真实的图片。

  • 微调:为了进行图像修复,需要对该模型进行微调以优化其在此类任务上表现。这包括随机擦除训练示例中某些区域,并将剩余部分与额外条件信息一起输入到模型中。同时还会修改网络结构增加新频道,并将新频道对应输入权重初始化为零。

  • 设置已知区域和未知区域:在待修复的图片中选择一部分作为已知区域(不需要修复的部分),剩余部分作为未知区域(需要修复的部分)。通常情况下,已知区域是完整无损害的图片内容,而未知区域可能是被遮挡或损坏了的图片内容。

  • 提供低分辨率和高分辨率信息: 对于上采样(upsampling) 模型来说, GLIDE 总是提供完整 (low-resolution) 图像, 但只提供 (high-resolution) 图片中未被掩盖(masked out) 的那些地方.

  • 生成结果: 在每次采样步骤后, GLIDE用 q(xt|x0)(即从扩散过程中某一时刻t得到的概率密度函数)对应于原始图像 x0 的样本替换图像中已经被确定(或者说"固定")了值得那些位置。这个过程会持续多次迭代以逐渐生成最终结果。

2.4 Noised CLIP models

为了更好地对比 classifier guidance 技术,作者训练了一个噪声 CLIP 模型。这个模型使用一个图像编码器 f(xt, t),它接收带有噪声的图像 xt,并且用原始CLIP 模型相同的目标函数进行训练。

在 64×64 分辨率下使用与基础模型相同的噪声来训练这些模型。

三、效果

3.1 定性对比

这里对比了 CLIP guidance 和 classifier-free guidance 的效果

  • classifier-free guidance 的结果看起来更真实,所以后面作者都使用了 classifier-free guidance

在这里插入图片描述

下图 1 展示了 GLIDE with classifier-free guidance 能根据很多 prompt 生成图片,且对光照和影子处理的很好,风格也很多变

在这里插入图片描述

图像修复:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

不同引导方式的对比:

在这里插入图片描述

在这里插入图片描述

3.2 定量对比

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3.3 失败案例

在这里插入图片描述

Coil 和 Glide 都是 Android 平台上常用的图片加载库,它们都提供了方便的 API 和功能来加载和显示图片。下面是对 Coil 和 Glide 的简要比较: 1. Coil: - Coil 是一个轻量级、快速且易于使用的图片加载库。 - 它具有简单而强大的 API,使得加载和显示图片变得更加便捷。 - Coil 支持网络图片加载、本地文件加载以及资源文件加载。 - 它具有自动的内存和磁盘缓存机制,可以有效管理图片缓存。 - Coil 使用 Kotlin 编写,支持 Kotlin 的协程,使异步操作更加简洁。 - 它的代码库相对较小,易于集成和维护。 2. Glide: - Glide 是一个功能强大且灵活的图片加载库,经过多年的发展和优化。 - 它支持多种图片加载源,包括网络、本地、资源和 ContentProvider 等。 - Glide 提供了丰富的功能,如缩放、裁剪、动画、变换等。 - 它具有强大的缓存管理机制,包括内存缓存和磁盘缓存,可根据需求进行配置。 - Glide 对于加载大型图片和 GIF 动画等场景有着良好的支持。 - 它使用 Java 编写,并且有广泛的文档和社区支持。 选择使用 Coil 还是 Glide 取决于你的具体需求和偏好。如果你需要一个轻量级的库,更喜欢 Kotlin 和协程的编程风格,可以考虑使用 Coil。如果你需要更丰富的功能和广泛的社区支持,同时不介意稍微复杂一些的集成和配置,那么 Glide 也是一个很好的选择。 无论选择哪个库,它们都提供了良好的性能和易用性,可以满足大多数图片加载的需求。 希望对你有所帮助!如果还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值