图像/视频生成模型中常见的条件融合方式
目前生成模型主要有4中常见的条件融合方式以实现可控生成:条件归一化层,Decoupled Cross-Attention,self-attention层进行融合,特征值逐元素求和。本文首先介绍下各种方法现,然后进行总结,最后提出一下展望。
-
条件归一化层
过去和现在的一些工作,会通过条件归一化层将一些条件(比如类别和文本)融合到生成模型以实现条件可控生成。假设生成模型某层的特征是 x ∈ R b × h w × c x \in R^{b \times hw \times c} x∈Rb×hw×c, P P P是输入条件, f ( P ) f(P) f(P)是条件特征提取网络,常见的范式如下:
f ( P ) = γ , β y = γ x − μ σ + ϵ + β f(P) = \gamma ,\beta \\ y = \gamma \frac{x - \mu}{\sigma + \epsilon} + \beta f(P)=γ,βy=γσ+ϵx−μ+β, 其中 μ , σ \mu, \sigma μ,σ分别是 x x x的均值和方差, y y y将要作为生成模型下一层的输入, ϵ \epsilon ϵ是较小常量防止数值问题(为了方便,后文省略)。(1) Adaptive Instance Normalization (AdaIN)
f ( P ) = γ , β ( γ ∈ R b × 1 × c , β ∈ R b × 1 × c ) y = γ x − μ σ + β ( μ ∈ R b × 1 × c , σ ∈ R b × 1 × c ) f(P) = \gamma ,\beta \ (\gamma \in R^{b \times 1 \times c}, \beta \in R^{b \times 1 \times c}) \\ y = \gamma \frac{x - \mu}{\sigma} + \beta \ (\mu \in R^{b \times 1 \times c}, \sigma \in R^{b \times 1 \times c}) f(P)=γ,β (γ∈Rb×1×c,β∈Rb×1×c)y=γσx−μ+β (μ∈Rb×1×c,σ∈Rb×1×c)
(2) 为解决条件归一化层(比如AdaIN和条件BatchNorm)缺失空间信息的问题, SPatially-Adaptive DEnormalization (SPADE, 2019)提出具有空间维度的 γ , β \gamma ,\beta γ,β:
f ( P ) = γ , β ( α ∈ R 1 × h w × c , β ∈ R 1 × h w × c ) y = γ x − μ σ + β ( μ ∈ R 1 × 1 × c , γ ∈ R 1 × 1 × c ) f(P) = \gamma ,\beta \ (\alpha \in R^{1 \times hw \times c}, \beta \in R^{1 \times hw \times c}) \\ y = \gamma \frac{x - \mu}{\sigma} + \beta \ (\mu \in R^{1 \times 1 \times c}, \gamma \in R^{1 \times 1 \times c}) f(P)=γ,β (α∈R1×hw×c,β∈R1×hw×c)y=γσx−μ+β (μ∈R1×1×c,γ∈R1×1×