Image Inpainting with Cascaded Modulation GAN and Object-Aware Training

文章提出了一种新的图像修复方法CM-GAN,利用傅里叶卷积块的编码器和级联的全局-空间调制解码器,有效捕捉图像结构和语义。实验表明,CM-GAN在处理复杂图像大孔问题上超越现有技术,尤其在保持全局一致性与局部细节真实性的任务中表现出色。
摘要由CSDN通过智能技术生成

Haitian Zheng1,2, Zhe Lin2, Jingwan Lu2, Scott Cohen2, Eli Shechtman2, Connelly Barnes2, Jianming Zhang2, Ning Xu2, Sohrab Amirghodsi2, and Jiebo Luo1

Recent image inpainting methods have made great progress but often struggle to generate plausible image structures when dealing with large holes in complex images. This is partially due to the lack of effective network structures that can capture both the long-range dependency and high-level semantics of an image. We propose cascaded modulation GAN (CM-GAN), a new network design consisting of an encoder with Fourier convolution blocks that extract multi-scale feature representations from the input image with holes and a dual-stream decoder with a novel cascaded global-spatial modulation block at each scale level. In each decoder block, global modulation is first applied to perform coarse and semantic-aware structure synthesis, followed by spatial modulation to further adjust the feature map in a spatially adaptive fashion. In addition, we design an object-aware training scheme to prevent the network from hallucinating new objects inside holes, fulfilling the needs of object removal tasks in real-world scenarios. Extensive experiments are conducted to show that our method significantly outperforms existing methods in both quantitative and qualitative evaluation.

摘要:

最近的图像修复方法取得了很大进展,但在处理复杂图像中的大孔时往往难以生成合理的图像结构。这部分是由于缺乏有效的网络结构可以捕获图像的远程依赖和高级语义。我们提出了级联调制 GAN (CM-GAN),这是一种新的网络设计,由一个具有傅里叶卷积块的编码器组成,该编码器从具有孔的输入图像中提取多尺度特征表示,以及一个双流解码器,在每个尺度级别具有新颖的级联全局空间调制块。在每个解码器块中,首先应用全局调制进行粗语义感知结构合成,然后进行空间调制,以空间自适应的方式进一步调整特征图。此外,我们设计了一种对象感知训练方案,以防止网络在孔内产生新对象,满足现实场景中对象去除任务的需求。进行了广泛的实验,以证明我们的方法在定量和定性评估方面都显著优于现有方法。

主要问题:

Essentially, how to

1) accurately propagate global context into the incomplete region while

2) synthesizing realistic local details that are coherent to the global clue is the key question for image inpainting. 

1)准确地将全局上下文传播到不完整区域

2)合成与全局线索一致的真实局部细节

是图像修复的关键问题。

图 2:左:CM-GAN 架构,它由一个具有 FFC 块的编码器和一个具有级联全局调制块 (GB) 和后续空间调制块 (SB) 的双流解码器组成。这种级联调制方案从全局调制的特征图(而不是来自先前工作中使用的编码器特征图)中提取空间样式代码,以使空间调制对修复更有效。右图:每个尺度上的级联调制。GB 和 SB 分别以 F ing 和 F ins 作为输入并生成上采样特征 F outg 和 F outs。具体来说,我们应用联合全局空间调制来确保全局和局部尺度的生成一致性。

1. FFC编码器(Fast Fourier Convolution blocks)

FFC blocks来替代传统的卷积块。通过在编码器的各个尺度级别上应用FFC blocks,可以使网络能够更好地传播早期阶段的特征信息,并解决生成无效特征的问题。通过使用FFC blocks,网络可以在整个图像上建立更大的感受野,以更好地捕捉全局语义信息。

2.级联调优(cascaded modulation)

a cascade of global modulation block (GB) and subsequent spatial modulation block (SB)

串联全局调制和空间调制来处理不完整区域内的特征。全局调制块(GB)利用全局代码对低分辨率特征进行上采样,而空间调制块(SB)则进一步注入细粒度的视觉细节。

  • 11
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值