[学习笔记]​ Palette: Image-to-Image Diffusion Models


Palette: Image-to-Image Diffusion Models
调色板:图像到图像扩散模型

原文链接:[2111.05826] Palette: Image-to-Image Diffusion Models (arxiv.org)链接

“本作品仅供学习交流使用,严禁用于商业用途。如果保存,请在24小时内删除。作者不承担任何责任。”

Palette: Image-to-Image Diffusion Models

本文开发了一种基于条件扩散模型的图像到图像翻译的统一框架,并在四个具有挑战性的图像到图像翻译任务上评估了该框架,即彩色化、修复、去裁剪和JPEG恢复。我们简单的图像到图像扩散模型实现在所有任务上超越了强大的GAN和回归基线,无需任务特定的超参数调优、架构定制或任何辅助损失或复杂的新技术。我们揭示了L2与L1损失在去噪扩散目标中对样本多样性的影响,并通过实证研究证明了Self attention的重要性。重要的是,我们提倡基于ImageNet的统一评估协议,并具有人工评估和样本质量评分(FID、Inception Score、CA、PD)。我们期望这种标准化的评估协议在推进图像到图像翻译研究中发挥作用。最后,我们表明通用多任务扩散模型的表现与特定任务的专业对口人员一样好,甚至更好。

说明

许多视觉和图像处理问题都可以表述为图像到图像的翻译。例如,修复任务,如超分辨率、着色和修复,以及像素级图像理解任务,如实例分割和深度估计。许多这样的任务,都是复杂的逆问题,其中多个输出图像与单个输入一致。图像到图像翻译的自然方法是学习给定输入的输出图像的条件分布,使用能够捕捉高维图像空间中多模态分布的深度生成模型。

GAN已成为许多图像到图像任务的模型系列的首选;它们能够生成高保真度的输出,具有广泛的应用性,并支持有效的采样。尽管如此,GANs可能很难训练,并且经常在输出分布中丢弃模态。自回归模型,VAEs以及标准化流已在特定应用中取得成功,但可以说,它们尚未达到GANs的质量和通用性水平。

本文研究了Palette(我们对图像到图像扩散模型的实现)对一套独特且具有挑战性的任务(即彩色化、修复、非裁剪和JPEG恢复)的普遍适用性。我们表明,Palette无需对任务特定的架构进行定制,也无需更改超参数或损失,即可在所有四个任务中提供高保真度的输出。它优于特定任务的基线和具有相同神经架构的强回归基线。重要的是,我们表明,在彩色化、修复和JPEG恢复任务上训练的单个通用Palette模型优于特定任务的JPEG模型,并在其他任务上实现了有竞争力的性能。

我们研究了Palette的关键组件,包括去噪损失函数和神经网络架构。我们发现,虽然L2 和L1在去噪目标中的损失产生了类似的样本质量得分,但L2导致了模型样本的更高程度的多样性,而L1产生了更保守的输出。我们还发现,从Palette的U-Net架构中删除self attention层,构建一个完全卷积模型,会损害性能。最后,我们提倡基于ImageNet的标准化评估协议,用于评估修复、非裁剪和JPEG恢复任务,并报告了几个基线的样本质量得分。我们希望这个基准测试有助于推动图像到图像的翻译研究。

相关工作

我们的工作受到了Pix2Pix的启发,该研究使用GAN探索了无数图像到图像的翻译任务。基于GAN的技术也被提出用于图像到图像的问题,如非配对翻译 ,无监督跨域生成 ,多域翻译 ,和少样本翻译。然而,现有的GAN模型有时无法成功地整体翻译具有一致结构和纹理规律的图像。

扩散模型最近取得了令人印象深刻的成果,用于图像生成,音频合成 ,以及图像超分辨率 ,以及非配对图像到图像的翻译和图像编辑 。我们的条件扩散模型建立在这些最近的进展基础上,在图像到图像的翻译任务方面表现出多样性。

大多数用于图像修复和其他线性逆问题的扩散模型都采用了无条件模型来应用于条件任务。这有一个优点,只需要训练一个模型。然而,无条件任务通常比条件任务更困难。我们将Palette视为一个条件模型,选择多任务训练,想得到一个适用于多个任务的单个模型。

早期的图像修复方法在纹理区域工作良好,但往往在生成语义一致的结构方面存在不足。GAN被广泛使用,但往往需要结构、上下文、边缘、轮廓和手工特征的辅助目标,并且它们的输出缺乏多样性。

图像非裁剪(也称为超画)被认为比修复更具挑战性,因为它需要生成开放式的内容,而上下文信息较少。早期的方法依赖于检索。现在GAN为主导的方法占主导地位 ,但它们通常是特定领域的。我们发现,经过大量数据集训练的条件扩散模型可以可靠地解决不同图像领域的修复和非裁剪问题。

彩色化是一个得到充分研究的任务 ,它需要一定程度的场景理解,因此很自然地适合于自监督学习 。其挑战包括各种彩色化,尊重语义类别 ,以及产生高保真度色彩 。虽然一些早期的工作利用了专门的辅助分类损失,但我们发现通用的图像到图像扩散模型在没有特定任务的情况下表现良好。

JPEG恢复是去除压缩人工制品的非线性逆问题。 Dong等人应用了深度CNN架构用于JPEG恢复,并且 Galteri等人成功地应用了GAN用于人工制品的去除,但它们仅限于质量因子高于10。我们展示了Palette在去除压缩人工制品方面的有效性,质量因子低至5。

多任务训练在图像到图像的翻译中是一个相对未被探索的领域。 [Qian等人2019年、Yu等人2018年]同时进行多个任务的训练,但它们主要关注增强任务,如去模糊、去噪和超分辨率,并使用较小的模块化网络。一些作品还处理了单个任务上的多个降级的同时训练,例如多尺度超分辨率 [Kim等人2016年],以及多个质量因子的JPEG恢复 [Galteri等人2019年、Liu等人2018年]。通过Palette,我们迈出了第一步,构建用于各种任务的多任务图像到图像扩散模型。

PALETTE

扩散模型通过迭代去噪过程将标准高斯分布的样本转换为经验数据分布的样本。条件扩散模型使去噪过程依赖于输入信号。图像到图像的扩散模型是有条件扩散模型的形式 p ( y ∣ x ) p(y|x) p(yx),其中 x x x y y y都是图像,例如, x x x是灰度图像, y y y是彩色图像。这些模型已应用于图像超分辨率。我们研究图像到图像扩散模型在广泛任务上的通用性。

在这里,我们简要讨论去噪损失函数。给定训练输出图像 y y y,我们生成一个噪声版本 y ~ \tilde y y~,并训练一个神经网络 f θ f_θ fθ进行去噪,给定 x x x和一个噪声水平指示器 γ γ γ,损失是

在这里插入图片描述

[Chen等人2021年]和[Saharia等人2021年]建议使用L1范数,即p=1,而标准公式是基于通常的L2范数[Ho等人2020年]。我们在下面进行仔细的消融实验,并分析范数选择的影响。我们发现与L2相比,L1的样本多样性要低得多。虽然L1在某些应用中可能有助于减少潜在的幻觉,但在这里我们采用L2来更忠实地捕捉输出分布。

Palette使用U-Net架构,并受到最近工作的启发进行了若干修改。该网络架构基于的256×256类别条件U-Net模型。我们的架构与他们的架构的两个主要区别是:(i)没有类别条件,(ii)通过串联对源图像进行附加条件,遵循[Saharia等人2021年]。

实验

我们将Palette应用于一系列具有挑战性的图像对图像任务:

(1) 着色 将输入灰度图像转换为合理的彩色图像。

(2) 修复 使用逼真的内容填充图像中用户指定的蒙版区域。

(3) 扩图 取消剪切沿一个或多个方向扩展输入图像以放大图像。

(4) JPEG恢复 纠正JPEG压缩伪影,恢复看似合理的图像细节。

结论

我们提出了Palette,一个简单、通用的图像到图像翻译框架。Palette在四个具有挑战性的图像到图像转换任务(着色、修复、取消剪切和JPEG恢复)上取得了很好的结果,优于强GAN和回归基线。与许多GAN模型不同,Palette可以产生多样化的高保真度输出。这是在没有任务特定定制或优化不稳定性的情况下完成的。我们还提出了一个多任务调色板模型,它的性能与特定任务的模型一样好或更好。对多任务扩散模型的进一步探索和研究是未来工作的一条令人兴奋的途径。本文展示了图像到图像扩散模型的一些潜力,但我们期待着看到新的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值