草图转换网络:SketchyGAN 和 style2paints

学习报告4

从草图中合成逼真的图像 SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis (CVPR 2018)

从人类绘制的草图中合成逼真的图像是计算机图形和视觉中的一个难题。现有方法要么需要精确的边缘图,要么需要数据库来检索图像。在这项工作中,作者提出了一种新颖的生成对抗网络(GAN)方法,该方法可以合成来自摩托车,马和沙发等50个类别的逼真的图像。作者演示了一种用于草图的数据增强技术,该技术是全自动的,并且作者证明增强的数据对其任务很有帮助。作者提出了一种新的适用于生成器和鉴别器的构造块,它改进了信息流,并在多尺度上利用了输入图像。与目前最先进的图像翻译方法相比,论文的方法生成的图像更逼真,初始分数也显著提高。

该论文的主要贡献是:

  1. 介绍了SketchyGAN,这是一种用于草图合成图像的深度学习方法。与以前的方法不同,它不在测试时进行图像检索。该方法能够生成来自50个不同类别的逼真的对象。基于草图的图像合成非常具有挑战性,其结果通常不是真实感的,但是与现有的深度生成模型相比,论文证明了质量的显着提高。

  2. 演示了一种草图数据的数据增强技术,可以解决缺少足够的人工注释训练数据的问题。

  3. 制定了具有附加目标函数和新网络构造块的GAN模型。作者表明,所有这些对任务都是至关重要的,而缺少任何这些都会降低结果质量。

基于草图的图像合成使非艺术家可以创建逼真的图像,而无需在图像合成中具有丰富的艺术技能或领域专业知识。在通常很难,因为草图很稀疏,而且新手艺术家都无法绘制能准确反映对象边界的草图。从草图合成一个真正的图像应该尽可能尊重艺术家意图,但可能需要偏离粗略笔触才能保留在自然图像流形上。

在过去的30年中,最流行的基于草图的图像合成技术由Photosketcher(该方法首先基于草图在大型图像集合检索具有相似结构的图片,用户从中选择需要的零件,通过调整各零件合成最终结果)和Sketch2photo (根据草图和文字标签无缝拼接照片生成结构)等图像检索方法驱动。这种方法通常需要精心设计的特征表示,这些特征表示在草图和照片之间是不变的。它们还涉及复杂的后处理程序,例如图形切割合成和梯度域混合,以使合成图像逼真。

基于草图的图像检索可分为粗粒度(coarse-grained)检索与细粒度(fine-grained)检索。存在对基于草图的图像检索众多作品(如基于草图的细粒度图像检索:零件感知属性的作用等),大多数方法使用词袋表示和边缘检测来构建在两个域之间(理想情况下)不变的特征。常见的缺点包括无法执行细粒度的检索以及无法将绘制不良的草图边缘映射到照片边界。为了解决这些问题,有学者训练深度卷积神经网络(CNN)关联草图和照片,将基于草图的图像检索作为在学习的特征嵌入空间中的搜索。他们表明,使用CNN可以大大提高性能,并且能够进行细粒度的实例级检索。

深度卷积神经网络的出现(如ImageNet分类网络,用于图像识别深度残差学习)为图像合成提供了诱人的方法,其中生成对抗网络(GANs)具有很大的潜力。基于草图的图像合成可以公式化为以输入草图为条件的图像转换问题。存在几种方法通过使用GANs从一个域的图像转换为另一个域(如PIX2PIX,CycleGAN)。但是,它们都不是专门为根据草图进行图像合成而设计的。

在本文中,作者提出了SketchyGAN,这是一种基于GAN的端到端训练草图到图像的合成方法,可以从50个类别中生成逼真的对象。输入是显示对象的草图,输出是包含相似姿势的该对象的真实图像。其挑战性在于:

  1. 难以获得配对的照片和草图,因此没有可供学习的庞大数据库。

  2. 目前还没有建立针对多个不同类别的草图到图像合成的神经网络方法,以往的工作是针对单个或极少数类别训练模型(如DiscoGAN:通过生成对抗网络发现跨域关系Scribbler:使用草图和颜色控制深度图像合成)。

作者通过增强Sketchy数据库来解决第一个挑战,其中包含将近75,000个实际的人体素描和照片,以及较大的配对边缘图数据集和照片。通过从50个类别中收集2,299,144张Flickr图像并从中合成边缘图来获得此扩充数据集。在训练过程中,作者调整边缘地图图像和草图图像对之间的比例,以便网络可以将其知识逐渐从边缘地图图像合成转移到草图图像合成。对于第二个挑战,作者建立了一个基于GAN的模型,该模型以输入草图为条件,并带有几个额外的损耗项,这些损耗项可以改善合成质量。作者还引入了一个新的构建模块,称为掩盖残差单元(MRU),可帮助生成更高质量的图像。该模块需要额外的图像输入,并利用其内部掩码动态确定网络的信息流。通过链接这些块,我们能够输入不同比例的图像金字塔。结果表明,在图像合成任务中,该结构优于原始卷积方法和ResNet块。

在这里插入图片描述
图1. (a)图片; (b)边缘图; ©草图。照片和草图来自Sketchy Database。与草图相比,边缘贴图包含更多的背景信息。相反,这些草图不能准确反映对象的实际边界,并且与对象在空间上不对齐。

图1可视化了图像边缘和人体素描之间的差异。草图是一组人类绘制的笔画,模仿了对象的近似边界和内部轮廓,并且边缘图是机器生成的像素阵列,精确地对应于光强度边界。从草图生成照片比从边缘生成照片要困难得多。与边缘图不同,草图未与对象边界精确对齐,因此生成模型需要学习空间变换以校正变形的笔触。其次,边缘贴图通常包含有关背景和细节的更多信息,而草图则不包含,这意味着模型本身必须插入更多信息。最后,草图可能包含漫画或标志性特征,例如图1(c)中猫脸上的“老虎”条纹,模型必须学会处理这些条纹。尽管存在这些相当大的差异,但作者表明,边缘地图仍然是对有限的Sketchy数据库的宝贵补充。但是,逐步将模型从基于边缘的图像合成过渡到基于草图的图像合成并非易事。

由于作者使用在ImageNetMS COCO上训练的现成的卷积神经网络来消除故障图像,因此需要找出Sketchy和这两个数据集之间的重叠类别。最终使用了56个可用类别中的50个类别,因为被排除的6个类别通常包含以人为主要对象以及类对象为对象的训练图像,它们使训练更加困难。

由于需要针对生成模型的丰富训练数据,因此每个类别都需要大量图像。作者通过查询类别名称作为关键字通过Flickr API直接从Flickr收集图像,返回的图像按“相关性”排序。作者使用两种不同的模型用于过滤掉不相关的图像。Inception-ResNet-v2网络在ImageNet上训练的图像用于对图像是否属于可用类别之一进行分类。由于没有适用于COCO的分类模型,作者使用Single Shot MultiBox Detector来检测给定图像是否包含COCO可用类别中的对象。并增加了一个额外的限制:被检测物体的边界框必须覆盖整个图像的5%,因为物体较大的图像不太可能拥挤。过滤后获得了大量可用图像。

在这里插入图片描述
在这里插入图片描述
图2. 边缘图创造流程。中间步骤的图像显示,每个步骤都有助于从边缘检测输出中移除一些伪影,使最终结果更像草图。我们还可以看到,距离图比边缘图要密集得多。

作者使用边缘检测和一些后处理步骤来获得类似草图的边缘图。该流程如图2所示。第一步是使用整体嵌套边缘检测(HED)来检测边缘(例如在PIX2PIX的实验Edges->photos部分中使用的)。对输出进行二值化并细化所有边缘后(经典的细化算法Zhang算法),清除孤立的像素并移除较小的连接组件。接下来,在所有边缘上使用阈值进行腐蚀,从而进一步减少边缘碎片的数量。然后删除剩余的马刺。因为边缘非常稀疏,所以为每个边缘贴图计算一个无符号的欧氏距离图以获得密集表示(参见图2(g)。

由于最终目标是从草图生成图像的网络,因此有必要在边缘图和草图上训练网络。为了简化训练过程,作者采用了一种将输入逐渐从边缘图转移到草图的策略:在训练开始时,训练数据主要是图像和边缘图对。在训练过程中,慢慢增加草图对的比例。让 i max ⁡ i_{\max} imax是训练迭代的最大数目,

  • 2
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值