浅读Improved Diffusion-based Image Colorization via Piggybacked Models

greenrice1

已于 2023-09-12 21:13:01 修改

阅读量365

点赞数

文章标签：人工智能计算机视觉

于 2023-09-12 17:51:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/greenrice1/article/details/132835685

版权

图像色彩化已经吸引了社区数十年的研究兴趣。然而，由于缺乏人类般的全球颜色理解，现有的方法仍然很难在灰度图像上提供令人满意的色彩化结果。最近，大规模的文本到图像(T2I)模型被利用来从文本提示到图像域中传输语义信息，其中文本为图像中的语义对象提供了全球控制。在本文中，我们介绍了一种利用训练好的T2I扩散模型已有的颜色先验知识来实现逼真和多样化的色彩化的模型。我们的主要想法是利用训练好的T2I扩散模型中的隐藏扩散模型的颜色先验知识来输出符合灰度输入的视觉语义的隐藏颜色先验。一个扩散控制器被设计来集成隐藏扩散模型的训练权重，以输出符合灰度输入的视觉语义的隐藏颜色先验。一个光度意识VQVAE将生成与给定灰度图像像素 perfect 对齐的色彩化结果。我们的模型还可以使用额外的输入(例如用户提示和文本)实现条件色彩化。广泛的实验表明，我们的方法在感知质量方面实现了前沿技术。

本论文中提出了如何使用现在已经比较成熟的图像模型（T2i）来优化生成更加多样化以及逼真的图像。首先我们需要了解一下什么是T2i模型，T2i diffusion model拥有能够从文本提示来生成图像的功能。那么对比一下T2i diffusion model和stable diffusion model：

Stable Diffusion model控制效果不好，是因为文本输入的控制信息不够准确。所以我们希望通过T2i adapter来改变这一问题，从而更精确的控制网络。

T2i adapter拥有的优点：

整体的优点有：

1.即插即用。不影响现有扩散模型的文本到图像的原始网络拓扑结构和生成能力，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。