Control Color:图像着色新SOTA!南洋理工大学最新

尽管现在有很多着色方法,但仍然存在一些限制,例如缺乏用户交互、局部着色不灵活、颜色渲染不自然、颜色变化不足以及颜色溢出。为了解决这些问题,今天给大家分享一篇很不错的工作:Control Color(CtrlColor)。这是一种多模态着色方法,利用预训练的Stable Diffusion(SD)模型,在高度可控的交互式图像着色方面具有很大潜力。虽然已经提出了几种基于扩散的方法,支持多模态着色仍然不容易。在这项研究中,目的在于解决无条件和有条件的图像着色(文本提示、笔划、示例)并在统一框架内解决颜色溢出和不正确的颜色。具体而言,本文提出了一种有效的方法来编码用户笔划,以实现精确的局部颜色调节,并采用了一种类似于示例的方法来约束颜色分布。除了接受文本提示作为条件外,这些设计还为本文的方法增添了多样性。除此之外还引入了一种基于自注意力和内容引导的可变形自编码器的新模块,以解决颜色溢出和颜色不准确的长期问题。广泛的比较表明,本文的模型在定性和定量上均优于最先进的图像着色方法。

介绍

图像着色旨在给灰度图像上色,从而增强了各个领域中的视觉吸引力,例如历史影像。手动着色是一种耗时的过程,严重依赖于着色师的偏好、经验、想象力和辛勤努力。尽管已经开发了许多自动着色方法,但它们仍然存在一定的缺点。这些包括色彩丰富度有限、色彩溢出、色彩扭曲以及某些区域着色不完整。此外,依赖用户提供条件的方法缺乏灵活性和精度。例如,这类方法不允许对特定区域进行选择性着色,也不允许使用笔划将颜色应用于特定目标。最近的图像着色技术,例如UniColor和iColoriT中的那些,提供了基于笔划的颜色控制,但受限于物体边界内的小正方形提示点。这需要更精确的提示放置,而且当着色小区域时可能会遇到严重的颜色溢出问题,或者无法根据笔划的颜色正确着色图像,如下图2所示。此外,由于这些方法仅仅是简单的设计,因此不利于区域着色,它们仅仅是将提示点的颜色扩展到相邻区域。

Stable Diffusion(SD)与ControlNet一起,最初是为了有条件的图像生成,似乎是图像着色的可行解决方案。虽然它能够根据灵活的条件生成多样化且高质量的图像,但它没有探索如何在统一框架内集成多个条件,而是依赖于单一的控制,如Canny边缘或分割图。此外,由于条件的高稀疏性和扩散过程中固有的随机性,它倾向于生成质量较低的结果,使其不适用于多模态图像着色任务。

为了解决上述挑战,本文提出了一种新颖的基于多模态扩散的着色框架,称为CtrlColor。该框架旨在统一各种着色任务,包括无条件、提示、笔划和示例为基础的图像着色,全部纳入一个框架内。CtrlColor利用了潜在扩散模型(即SD)中封装的丰富先验信息,该模型是在大规模图像数据集上训练的。这使得本文的方法在色彩丰富度和多样性方面明显优于先前的方法。

为了解决颜色溢出和不正确的颜色问题,在框架中引入了自注意力引导和内容引导的可变形自编码器。在没有任何训练的情况下,自注意力引导被添加到推理过程中,通过模糊分布区域外的注意力区域,并重新生成模糊区域的颜色分布,使其更加相似和和谐于其周围环境,从而解决小颜色溢出问题。为了处理由扩散模型低保真特性引起的更复杂和严重的颜色伪影,在SD自编码器的解码器中引入了可变形卷积层。在输入图像的内容的指导下,这些层约束变形的区域以使生成的颜色与输入纹理对齐,从而减少低色彩保真度的问题,即颜色溢出和不正确的颜色。

此外,本文提出了一种新方法,以实现基于笔划的着色。具体来说,是将提示点图、二进制mask和输入灰度图像的组合纳入SD模型中。提示点是使用笔划定位的。为了明确指示提示点的位置,引入了从提示点图派生的二进制mask。通过在去噪过程中将提示点编码到潜在空间中,控制了去噪后的颜色分布。这使用户能够灵活地使用任意笔划修改图像的颜色,从而实现对特定局部区域的修改。

在这项研究中,下图1中的结果预览,展示了本文方法的多样化应用。该方法为实现高度可控的图像着色提供了多功能且有效的解决方案,实现了图像着色的色彩丰富度、稳定性和视觉质量方面的最新性能。本文还提供了一个视频演示,展示了一个交互式界面,演示了多模态着色和局部可控性。

本文的主要贡献如下:

  • 提出了一种基于新颖扩散模型的框架Ctrl-Color,实现了高度可控的多模态着色。本文的框架支持基于提示、基于笔划、基于示例以及这些条件的局部和全局着色的组合。

  • 本文的方法通过采用无需训练的自注意力引导和学习的内容引导可变形自编码器来解决颜色溢出问题。

  • 引入了一种新方法,通过将笔划的位置和颜色编码到扩散过程中,以局部和精确地控制颜色。

  • 除了克服预训练SD模型的低保真度之外,本文的方法还利用了其优势,与先前的方法相比,产生的彩色图像具有更丰富的颜色变化。

相关工作

无条件着色 无条件着色旨在自动给灰度图像上色。早期的尝试将着色制定为回归或分类任务。为了进一步用语义信息指导着色,将类标签、语义分割图或/和实例边界框纳入到着色网络中。最近的生成对抗网络(GAN)和Transformer也在着色方面展现出了良好的结果。DeOldify和ChromaGan直接优化基于GAN的网络,而前人则利用了预训练GAN的生成先验知识。受益于其长期感受野,Transformer架构被用来在像素空间或潜在空间中自回归地预测颜色标注。近期,[37]训练了一个从头开始的扩散模型,该模型以灰度图像为

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值