Image Fine-grained Inpainting

Zheng Hui, Jie Li, Xinbo Gao, Senior Member, IEEE and Xiumei Wang

图像修复技术在生成对抗网络 (GAN) 的帮助下显示出有希望的改进。然而,它们中的大多数往往存在结构不合理或模糊不合理的完整结果。为了缓解这个问题,在本文中,

1/我们提出了一个单阶段模型,该模型利用扩张卷积的密集组合来获得更大、更有效的感受野。得益于该网络的特性,我们可以更容易地恢复不完整图像中的大区域。为了更好地训练这个高效的生成器,

2/除了常用的 VGG 特征匹配损失外,我们设计了一种新的自引导回归损失来专注于不确定区域并增强语义细节。

3/此外,我们设计了一个几何对齐约束项(特征中心坐标对齐),以补偿预测特征和地面真实特征之间的基于像素的距离。

4/我们还使用具有局部和全局分支的鉴别器来确保局部全局内容的一致性。为了进一步提高生成图像的质量,引入了局部分支上的鉴别器特征匹配,动态最小化了合成补丁和真实补丁之间的中间特征的相似性。

我们的贡献总结如下:

• Self-guided 回归损失通过重新加权由差异图引导的 VGG 特征在一定程度上纠正语义结构错误,这对于图像/视频完成任务来说是新颖的。

• 我们提出了几何对齐约束来补充基于像素的 VGG 特征匹配损失的不足,这将结果限制在更合理的语义空间位置。

• 我们提出了密集多融合块(DMFB,增强扩张卷积)来改进网络表示,在保持可接受的参数大小的同时增加了感受野。我们的生成图像修复框架在具有挑战性的数据集上实现了令人信服的视觉结果(如图 1 所示)。

模型效果:

网络结构:

生成器部分:

判别器部分:

这里作者使用了多种损失函数,用于指导训练。详情可见论文

实验设计:

我们应用PyTorch框架来实现我们的模型,并使用NVIDIA TITAN Xp GPU (12GB内存)训练它们。对于训练,给定原始图像 Igt,随机位置的二值图像掩码 M(已知像素的值为 0,1 表示未知像素)。这样,输入图像Iin是从原始图像中获得的,如Iin = Igt(1−M)。我们的修复生成器以 [Iin, M] 作为输入,并产生预测 Ipred。最终输出图像为 Iout = Iin + Ipred M。所有输入和输出都线性缩放到 [-1, 1]。我们在训练集上训练我们的网络,并在验证集(Places2、CelebA-HQ 和 FFHQ)或测试集(Paris 街景和 CelebA)上评估它。对于训练,我们使用分辨率256×256的图像,最大孔径128×128,如[7]、[8]所示。对于巴黎街景(936 × 537),我们随机裁剪分辨率为 537 × 537 的补丁,然后将它们缩小到 256 × 256 进行训练。类似地,对于Places2 (512 × *),在随机位置裁剪512 × 512子图像。对于我们的模型,这些图像被缩小到 256 × 256。对于CelebA-HQ和FFHQ人脸数据集(1024 × 1024),图像直接缩放到256。我们使用[24]提供的不规则掩码数据集。对于不规则掩模,随机规则区域被裁剪并发送到局部鉴别器。我们的模型生成的所有结果都不是后处理的。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值