图像/视频生成模型中常见的条件融合方式

图像/视频生成模型中常见的条件融合方式

目前生成模型主要有4中常见的条件融合方式以实现可控生成:条件归一化层,Decoupled Cross-Attention,self-attention层进行融合,特征值逐元素求和。本文首先介绍下各种方法现,然后进行总结,最后提出一下展望。

  1. 条件归一化层
    过去和现在的一些工作,会通过条件归一化层将一些条件(比如类别和文本)融合到生成模型以实现条件可控生成。假设生成模型某层的特征是 x ∈ R b × h w × c x \in R^{b \times hw \times c} xRb×hw×c, P P P是输入条件, f ( P ) f(P) f(P)是条件特征提取网络,常见的范式如下:
    f ( P ) = γ , β y = γ x − μ σ + ϵ + β f(P) = \gamma ,\beta \\ y = \gamma \frac{x - \mu}{\sigma + \epsilon} + \beta f(P)=γ,βy=γσ+ϵxμ+β, 其中 μ , σ \mu, \sigma μ,σ分别是 x x x的均值和方差, y y y将要作为生成模型下一层的输入, ϵ \epsilon ϵ是较小常量防止数值问题(为了方便,后文省略)。

    (1) Adaptive Instance Normalization (AdaIN)
    f ( P ) = γ , β   ( γ ∈ R b × 1 × c , β ∈ R b × 1 × c ) y = γ x − μ σ + β   ( μ ∈ R b × 1 × c , σ ∈ R b × 1 × c ) f(P) = \gamma ,\beta \ (\gamma \in R^{b \times 1 \times c}, \beta \in R^{b \times 1 \times c}) \\ y = \gamma \frac{x - \mu}{\sigma} + \beta \ (\mu \in R^{b \times 1 \times c}, \sigma \in R^{b \times 1 \times c}) f(P)=γ,β (γRb×1×c,βRb×1×c)y=γσxμ+β (μRb×1×c,σRb×1×c)
    (2) 为解决条件归一化层(比如AdaIN和条件BatchNorm)缺失空间信息的问题, SPatially-Adaptive DEnormalization (SPADE, 2019)提出具有空间维度的 γ , β \gamma ,\beta γ,β
    f ( P ) = γ , β   ( α ∈ R 1 × h w × c , β ∈ R 1 × h w × c ) y = γ x − μ σ + β   ( μ ∈ R 1 × 1 × c , γ ∈ R 1 × 1 × c ) f(P) = \gamma ,\beta \ (\alpha \in R^{1 \times hw \times c}, \beta \in R^{1 \times hw \times c}) \\ y = \gamma \frac{x - \mu}{\sigma} + \beta \ (\mu \in R^{1 \times 1 \times c}, \gamma \in R^{1 \times 1 \times c}) f(P)=γ,β (αR1×hw×c,βR1×hw×c)y=γσxμ+β (μR1×1×c,γR1×1×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值