Semantic Image Inpainting with Progressive Generative Networks渐进式生成网络的语义图像修复(2018)论文阅读

一、摘要

本文研究了一个更具挑战性的问题—新出现的语义图像修复,一项在自然图像中填充大洞的任务。在本文中,提出了一个端到端的框架渐进式生成网络(PGN),该框架将语义图像修复任务视为课程学习问题。具体来说,将填洞过程分为几个不同的阶段,每个阶段的目标是完成整个课程中的一个课程。之后,使用LSTMLSTM是一种特殊的RNN(循环神经网络)框架将所有阶段串联在一起。通过引入这种学习策略,在自然图像中能够逐步缩小大的损坏区域并产生有希望的修复效果。此外,所提出的方法具有相当快的评估,因为整个孔填充是在一个单一的前向通道中进行。

二、介绍

一种流行的方法是基于扩散的。它持有图像的高度平滑假设,旨在将信息从已知区域传播到未知区域。这种方法不能综合语义内容,因此不适合修复大面积的损坏区域,基于扩散的修复高度依赖于同一图像中的已知区域另一种主流方法是基于样本的方法。它持有空间相关性假设,并通过从已知区域复制像素/补丁或重新排列其位置来完成图像。由于搜索和优化过程的计算成本很高,这种方法通常不适合处理高分辨率图像。显然,这两种方法得到的修复效果都不令人满意。

图像必须尽可能在视觉上令人愉悦,处理时间也必须尽可能短。为了解决这些问题,在本文中,将语义图像修复作为课程学习问题,并提出了一种名为渐进式生成网络(PGN),采用新颖的端到端框架,该框架能够生成更逼真和视觉愉悦的结果。从损坏区域的外部到内部进行修复肯定比无序修复要好。具体来说,我们将修复任务划分为几个子任务。每个子任务的目标是完成修复任务的特定部分。所有的子任务都是预定义的,并且高度组织,就像课程中的课程一样。此外,引入LSTM框架将所有子任务串在一起。通过这种方式,从前一个子任务中学到的精华被用来简化后续子任务的学习。因此,使用本文的方法可以恢复精细的图像结构。由于我们的方法在测试阶段不引入任何优化操作,因此计算速度非常快,整个修复过程可以在单个端到端前向传递中完成。

贡献

①我们提出了一个渐进式语义图像修复框架,一种端到端的神经网络,与课程学习策略相关联,可以显著减少缺失图像区域边界的不自然过渡。

②与以往基于GAN的图像修复算法不同,PGN的判别器是对生成样本的整个区域进行判别,以保持结构和纹理的一致性。

③在PGN中引入LSTM架构,串接所有子任务,控制PGN中的信息流。它可以避免信息干扰,提高图像的质量。

三、相关的工作

深度学习

CNN已经被证明在足够的数据和监督下,对于特征学习是非常强大的。然而,当标记数据很少或没有标记数据时,情况并非总是如此。在无监督的场景中,自动编码器被更频繁地使用,特别是在生成建模中,这与所提出的PGN方法高度相关。递归神经网络(RNN)是深度学习技术的另一个重要分支。长短期记忆(LSTM)可能是使用最广泛的RNN方法,它在序列学习中特别有效。

课程学习

课程学习的灵感来自于人类的训练过程,即首先开始学习简单的概念,然后逐渐引入更复杂的概念。

四、方法

PGN(渐进生成网络)

假设学生A和学生B掌握相同的图像修复技术,即使用具有重建损失和对抗损失的编码器-解码器框架,生成器是U-Net。学生A一步完成,学生B计划修复顺序,逐步完成这个任务。学生B能够比学生A恢复更好的结构和纹理,说明了以合理的顺序进行修复可以获得更好的效果。

合理的课程策略

课程学习的关键在于确定合理的课程策略。在语义图像修复任务中,按照修复顺序定义课程是一种自然的选择。将修复过程划分为不同的阶段,每个阶段处理一个特定的修复子任务。在第一阶段,PGN在损坏区域的最外环内,并逐渐向内移动,直到整个损坏区域被填满。相关组件有:生成器、判别器、控制信息流的LSTM组件和指导网络训练的一些损失函数。

U-Net架构

采用U-Net作为生成器。使用的U-Net是全卷积的,由于编码部分的信息是对称的,直接传递到解码部分的相应位置,减少了传统自编码器架构中的信息丢失。

长短期记忆(LSTM)

将修复任务划分为不同的阶段,将前一个阶段的信息传递到后面的阶段是至关重要的。由于LSTM具有捕捉远距离统计规律的能力,运用LSTM将所有阶段连接在一起。每两个相邻阶段之间用LSTM单元连接在一起,把前一阶段学习到的精华流向随后的子任务中,并简化了学习过程。

输入:1024维向量,输出:2048维向量

Featuret:1024+2048 = 3072 ,将其发送到U-Net的解码器部分。

LSTM网络的计算函数:

重建损失

假设每一阶段的输入是Xi,G是生成器。阶段i的掩码是Mi,掩码区域是0,无破损区域是1。由于重建损失只对像素误差进行惩罚,不能保证数据分布与自然图像相似,容易导致修复效果模糊,可以通过施加对抗性损失来缓解。

对抗损失

D和G是联合优化的,使用它可以生成更自然的内容。

总变差损失(TV)

总损失

PGN修复过程

给定一个未损坏的图像,我们首先用四个预定义的掩码(从最大到最小)破坏它(此时有四个不同掩码的图像)。然后,在第一阶段,我们将第一张损坏的图像(有最大洞的图像)输入生成网络。PGN的目标是生成与第二张损坏图像相似的图像(目的是欺骗判别网络),即修复损坏区域的最外环。然后将生成的图像传递给第二阶段的输入。此外,“瓶颈层”(一种紧凑的特征表示)也通过LSTM单元传递到第二阶段。在第一阶段完成修复子任务后,PGN开始接下来的几个阶段。接下来几个阶段的网络架构与第一阶段完全相同。唯一的区别在于输入和输出,因为每个阶段的目标是修复一个特定的损坏区域。

五、试验

算法

训练迭代次数:从真实数据集中选择k张真实图片(real^{i})、将k张图片损坏(destroy^{i})、将损坏图像送入生成器中生成虚假图片(fake^{i}

阶段数:更新PGN的第i层判别器(上升它的随机梯度)、更新PGN的生成器(下降它的随机梯度)。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值