030_SSS_MaskSketch Unpaired Structure-guided Masked Image Generation

MaskSketch: Unpaired Structure-guided Masked Image Generation

1. Introduction

本文在MaskGIT的基础上进行了改进,提出了MaskSketch用于sketch-to-photo。MaskSketch直接使用预训练好的MaskGIT,不需要进行模型的训练,而且不需要成对的监督信息,并且可以使用不同抽象程度的sketch作为输入。

在这里插入图片描述

作者指出MaskGIT中间层的self-attention map包含了输入图像的重要的结构信息,例如场景布局和对象形状等, MaskSketch利用了self-attention map的这一特性,从而实现结构引导生成。

本文的主要贡献:

  1. 本文展示了MaskGIT的self-attention map编码了重要的结构信息,这些信息应用于sketch和image的转换仍然很鲁棒。
  2. 本文提出了一种基于self-attention similarity的采样方式,可以平衡输入的sketch的结构引导和图像先验。
  3. 作者实验证明MaskSketch在unpaired sketch-to-photo Translation有SOTA的效果。
  4. MaskSketch是第一个只需要class label的用于sketch-to-photo Translation的generative Transformer。

2. Methodology

在这里插入图片描述

2.1 Masked Image Generation

MaskGIT的内容参考上一篇笔记MaskGIT

2.2 Structural Similarity via Attention Maps

作者观察到在ImageNet上训练的class-conditional MaskGIT的attention map有很强的域不变性因而具有捕捉域外不同分布的结构相似性比如sketch。

接下来利用attention map来衡量结构相似性。假设 x ∈ Z n x \in Z^n xZn 是输入图像经过VQGAN encoder得到的隐式编码token序列, y y y 是生成的token序列。 A l ( x ) ∈ [ 0 , 1 ] N × N A^l(x) \in [0,1]^{N \times N} Al(x)[0,1]N×N 表示transformer第 l l l 层的self-attention map。

作者定义x和y的第i个token之间的structural distance为:

在这里插入图片描述

2.2 Structure-guided Parallel Decoding

在采样的阶段,MaskGIT每一次迭代会把低置信度的token重新加上mask。而MaskSketch基于structure distance额外加入一层mask,使得结构相似性低和置信度低的token都被加上mask。

在这里插入图片描述

作者通过实验发现,选择transformer的前几层的attention map得到的结果能够得到几乎和输入图像一样的结果,而选择transformer后几层的attention map得到的结果则更真实,并且能和输入的sketch保持结构一致。

2.3 Structure fidelity vs realism trade-off

由于输入的sketch和要输出的图像在结构上相似,但是在外观上有很大差异,因此需要保证图像在有结构相似的基础上还要有真实性。为此作者引入了参数 λ s ∈ [ 0 , 10 ] \lambda_s \in [0,10] λs[0,10] 用来控制每次迭代的mask中因为相似度低加入的mask和因为置信度低加入的mask的比例。

更详细的来说,在MaskGIT中,每一次迭代会基于置信度保留 γ ( t ) N \gamma(t)N γ(t)N 的mask,而MaskSketch中,则是细分为因为置信度保留 ( 1 − λ s ) γ ( t ) N (1-\lambda_s)\gamma(t) N (1λs)γ(t)N 的mask,因为结构相似性保留 λ s γ ( t ) N \lambda_s \gamma(t) N λsγ(t)N 的mask。之后将构造出的两种mask m t s m_t^s mts m t c m_t^c mtc 进行逻辑OR操作,得到当前迭代的最终mask。

而构造的过程,则是利用 sample_mask 函数,选择 top_k 的score值所在位置加mask。

Classifier-free Guidance

为了更准确的计算置信度,从而提高生成结果的真实性。作者采用了classifier-free guidance。也就是在计算每个token的条件概率分布的时候,减去无条件的概率分布。而无条件的概率分布通过将正确的图像的class guidance c c c 替换为随机的条件class guidance r r r

在这里插入图片描述

整体的采样算法如下
在这里插入图片描述

Global CLIP-based rejection sampling

为了提高MaskSketch的稳定性,并且提高生成结果的保真度,对于同一个输入的sketch,作者通过设置不同的随机种子和classifier-free guidance scale β \beta β 得到多个结果,然后利用CLIP score得到效果最好的结果。

在这里插入图片描述

3. Experiments

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值