[学习笔记] Palette: Image-to-Image Diffusion Models

最新推荐文章于 2024-08-10 08:14:11 发布

出门碰个蒋别

最新推荐文章于 2024-08-10 08:14:11 发布

阅读量1.6k

点赞数

文章标签：学习笔记 python 神经网络计算机视觉

本文链接：https://blog.csdn.net/qq_45747799/article/details/134753486

版权

Palette: Image-to-Image Diffusion Models
调色板：图像到图像扩散模型

原文链接：[2111.05826] Palette: Image-to-Image Diffusion Models (arxiv.org)链接

“本作品仅供学习交流使用，严禁用于商业用途。如果保存，请在24小时内删除。作者不承担任何责任。”

Palette: Image-to-Image Diffusion Models

本文开发了一种基于条件扩散模型的图像到图像翻译的统一框架，并在四个具有挑战性的图像到图像翻译任务上评估了该框架，即彩色化、修复、去裁剪和JPEG恢复。我们简单的图像到图像扩散模型实现在所有任务上超越了强大的GAN和回归基线，无需任务特定的超参数调优、架构定制或任何辅助损失或复杂的新技术。我们揭示了L2与L1损失在去噪扩散目标中对样本多样性的影响，并通过实证研究证明了Self attention的重要性。重要的是，我们提倡基于ImageNet的统一评估协议，并具有人工评估和样本质量评分（FID、Inception Score、CA、PD）。我们期望这种标准化的评估协议在推进图像到图像翻译研究中发挥作用。最后，我们表明通用多任务扩散模型的表现与特定任务的专业对口人员一样好，甚至更好。

说明

许多视觉和图像处理问题都可以表述为图像到图像的翻译。例如，修复任务，如超分辨率、着色和修复，以及像素级图像理解任务，如实例分割和深度估计。许多这样的任务，都是复杂的逆问题，其中多个输出图像与单个输入一致。图像到图像翻译的自然方法是学习给定输入的输出图像的条件分布，使用能够捕捉高维图像空间中多模态分布的深度生成模型。

GAN已成为许多图像到图像任务的模型系列的首选；它们能够生成高保真度的输出，具有广泛的应用性，并支持有效的采样。尽管如此，GANs可能很难训练，并且经常在输出分布中丢弃模态。自回归模型，VAEs以及标准化流已在特定应用中取得成功，但可以说，它们尚未达到GANs的质量和通用性水平。

本文研究了Palette（我们对图像到图像扩散模型的实现）对一套独特且具有挑战性的任务（即彩色化、修复、非裁剪和JPEG恢复）的普遍适用性。我们表明，Palette无需对任务特定的架构进行定制，也无需更改超参数或损失，即可在所有四个任务中提供高保真度的输出。它优于特定任务的基线和具有相同神经架构的强回归基线。重要的是，我们表明，在彩色化、修复和JPEG恢复任务上训练的单个通用Palette模型优于特定任务的JPEG模型，并在其他任务上实现了有竞争力的性能。

我们研究了Palette的关键组件，包括去噪损失函数和神经网络架构。我们发现，虽然L2 和L1在去噪目标中的损失产生了类似的样本质量得分，但L2导致了模型样本的更高程度的多样性，而L1产生了更保守的输出。我们还发现，从Palette的U-Net架构中删除self attention层，构建一个完全卷积模型，会损害性能。最后，我们提倡基于ImageNet的标准化评估协议，用于评估修复、非裁剪和JPEG恢复任务，并报告了几个基线的样本质量得分。我们希望这个基准测试有助于推动图像到图像的翻译研究。

PALETTE

扩散模型通过迭代去噪过程将标准高斯分布的样本转换为经验数据分布的样本。条件扩散模型使去噪过程依赖于输入信号。图像到图像的扩散模型是有条件扩散模型的形式 $p (y ∣ x)$ ，其中 $x$ 和 $y$ 都是图像，例如， $x$ 是灰度图像， $y$ 是彩色图像。这些模型已应用于图像超分辨率。我们研究图像到图像扩散模型在广泛任务上的通用性。

在这里，我们简要讨论去噪损失函数。给定训练输出图像 $y$ ，我们生成一个噪声版本 $\tilde y$ ，并训练一个神经网络 $f_θ$ 进行去噪，给定 $x$ 和一个噪声水平指示器 $γ$ ，损失是

在这里插入图片描述

[Chen等人2021年]和[Saharia等人2021年]建议使用L1范数，即p=1，而标准公式是基于通常的L2范数[Ho等人2020年]。我们在下面进行仔细的消融实验，并分析范数选择的影响。我们发现与L2相比，L1的样本多样性要低得多。虽然L1在某些应用中可能有助于减少潜在的幻觉，但在这里我们采用L2来更忠实地捕捉输出分布。

Palette使用U-Net架构，并受到最近工作的启发进行了若干修改。该网络架构基于的256×256类别条件U-Net模型。我们的架构与他们的架构的两个主要区别是：(i)没有类别条件，(ii)通过串联对源图像进行附加条件，遵循[Saharia等人2021年]。

实验

我们将Palette应用于一系列具有挑战性的图像对图像任务：

（1）着色将输入灰度图像转换为合理的彩色图像。

（2）修复使用逼真的内容填充图像中用户指定的蒙版区域。

（3）扩图取消剪切沿一个或多个方向扩展输入图像以放大图像。

（4） JPEG恢复纠正JPEG压缩伪影，恢复看似合理的图像细节。

结论

我们提出了Palette，一个简单、通用的图像到图像翻译框架。Palette在四个具有挑战性的图像到图像转换任务（着色、修复、取消剪切和JPEG恢复）上取得了很好的结果，优于强GAN和回归基线。与许多GAN模型不同，Palette可以产生多样化的高保真度输出。这是在没有任务特定定制或优化不稳定性的情况下完成的。我们还提出了一个多任务调色板模型，它的性能与特定任务的模型一样好或更好。对多任务扩散模型的进一步探索和研究是未来工作的一条令人兴奋的途径。本文展示了图像到图像扩散模型的一些潜力，但我们期待着看到新的应用。