图像色彩化已经吸引了社区数十年的研究兴趣。然而,由于缺乏人类般的全球颜色理解,现有的方法仍然很难在灰度图像上提供令人满意的色彩化结果。最近,大规模的文本到图像(T2I)模型被利用来从文本提示到图像域中传输语义信息,其中文本为图像中的语义对象提供了全球控制。在本文中,我们介绍了一种利用训练好的T2I扩散模型已有的颜色先验知识来实现逼真和多样化的色彩化的模型。我们的主要想法是利用训练好的T2I扩散模型中的隐藏扩散模型的颜色先验知识来输出符合灰度输入的视觉语义的隐藏颜色先验。一个扩散控制器被设计来集成隐藏扩散模型的训练权重,以输出符合灰度输入的视觉语义的隐藏颜色先验。一个光度意识VQVAE将生成与给定灰度图像像素 perfect 对齐的色彩化结果。我们的模型还可以使用额外的输入(例如用户提示和文本)实现条件色彩化。广泛的实验表明,我们的方法在感知质量方面实现了前沿技术。
本论文中提出了如何使用现在已经比较成熟的图像模型(T2i)来优化生成更加多样化以及逼真的图像。首先我们需要了解一下什么是T2i模型,T2i diffusion model拥有能够从文本提示来生成图像的功能。那么对比一下T2i diffusion model和stable diffusion model:
Stable Diffusion model控制效果不好,是因为文本输入的控制信息不够准确。所以我们希望通过T2i adapter来改变这一问题,从而更精确的控制网络。
T2i adapter拥有的优点:
整体的优点有:
1.即插即用。不影响现有扩散模型的文本到图 像的原始网络拓扑结构和生成能力,