Composer: Creative and Controllable Image Synthesis with Composable Conditions
文章目录
一、研究目的
提供了一种新的生成范式,可以灵活控制输出图像,如空间布局和调色板,同时保持合成质量和模型的创造性。(这里生成可控图像的方式与IP adapter 和 ControlNet的区别都挺大的,似乎Composer编辑的方式相对来说非常自由!)
图 1.构图图像合成的概念,它首先将一张图像分解成一组基本组件,然后重新合成一张具有高度创造力和可控性的新图像。为此,各种格式的组件作为生成过程中的条件,并允许在推理阶段进行灵活的定制。最好在大尺寸下观看。
二、研究背景
“The infinite use of finite means.”
“有限手段的无限使用”(The infinite use of finite means)这一概念最早由语言学家威廉·冯·洪堡(Wilhelm von Humboldt)提出,他强调语言通过有限的语法和词汇能够创造出无限多的句子,表达无限多的思想。这一观点后来被诺姆·乔姆斯基(Noam Chomsky)在其语言学理论中进一步发展和强调,成为生成语法(generative grammar)的核心理念之一。
乔姆斯基认为,人类语言的创造性在于使用有限的语法规则和词汇来生成和理解无限多的句子。这种能力是人类语言独特的属性,也是人类心智的一部分。他提出,每个说话者都掌握了一种生成语法,这种语法能够以一种明确和定义良好的方式为句子分配结构描述。这种语法是无意识的,超越了实际或潜在意识水平,是说话者所不知道的知识。
以往的可控图像生成模型在实际应用中仍然只能为设计者提供有限的可控性。例如,生成模型往往难以同时准确生成具有语义、形状、风格和颜色规格的图像,而这在现实世界的设计项目中很常见。
我们认为,可控图像生成的关键不仅取决于条件,更重要的是取决于组合性。后者可以通过引入大量的潜在组合(例如,一百张图像有八个表征,每个表征产生约 1008 种组合),以指数方式扩大控制空间。
三、研究内容(主要贡献)
我们在上述想法的基础上,提出了合成生成模型的实现方法–Composer。所谓合成生成模型,是指能够无缝重组视觉组件以生成新图像的生成模型(图 1)。具体来说,我们将 Composer 作为具有 UNet 主干网的多条件扩散模型来实现。Composer 的每次训练迭代分为两个阶段:在分解阶段,我们使用计算机视觉算法或预训练模型将一批图像分解为单个表征;而在合成阶段,我们对 Composer 进行优化,使其能够从表征子集重建这些图像。尽管只以重建为目标进行训练,但 Composer 仍能从未曾见过的表征组合中解码出新奇的图像,这些表征组合可能来自不同来源,也可能互不兼容。
四、技术路线
4.1. Diffusion Models
扩散模型是一种生成模型,通过迭代去噪过程从高斯噪声中生成数据。通常,去噪目标是简单的均方误差:
L simple = E x 0 , c , ϵ , t ( ∥ ϵ − ϵ θ ( a t x 0 + σ t ϵ , c ) ∥ 2 2 ) , \mathcal{L}_{\text {simple }}=\mathbb{E}_{\mathbf{x}_0, \mathbf{c}, \boldsymbol{\epsilon}, t}\left(\left\|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_\theta\left(a_t \mathbf{x}_0+\sigma_t \boldsymbol{\epsilon}, \mathbf{c}\right)\right\|_2^2\right), Lsimple =Ex0,c,ϵ,t(∥ϵ−ϵθ(atx0+σtϵ,c)∥22),
其中, x 0 \mathbf{x}_0 x0 是带有可选条件 c c c 的训练数据, t ∼ U ( 0 , 1 ) , ∼ N ( 0 , I ) t ∼ U(0,1),∼ N (0, I) t∼U(0,1),∼N(0,I) 是加性高斯噪声(additive Gaussian noise), a t a_t at、