(sketch to image) 论文阅读笔记 SketchyCOCO:Image Generation from Freehand Scene Sketches

在这里插入图片描述在这里插入图片描述

Task

Description:根据sketch生成全景图
Input: 包含前景sketch(如上图中的斑马,长颈鹿,大象等)和背景sketch(如草-草地,白云-天空,树-森林等)的全景级freehand sketch。
Output:对应的Real Scene Image


Introduction

作者表示sketch相比其他信息(text / semantics maps / scene graph)更加能够表现用户的意向。
(sketch自然的包含了一些物体细节,例如:物体姿态 / 位置 / 形状)
sketch2Image中的难点在于生成能够反映用户意图的图片

sketch区分 前景 和 背景
大多数用户更加在意前景的生成效果和细节,同时也在前景上提供了更加具体和细节的描绘
相比之下,背景大多数是留白或者是简略的线条
问题在于如何处理这两种不同的需求


method

为了出了上述问题,作者将处理分为两个阶段
(1)前景图生成,尽可能地满足用户特定要求
(2)背景图生成,生成与sketch位置对齐的图片内容
生成的前景图为背景增加了限制,也就是说这种先前景后背景的方式,降低了背景图生成的难度

由于sketch本身具有抽象性和不确定性
为了解决由此带来的数据差异问题,作者设计了一个新的神经网络算法 EdgeGAN
该算法将图片和对应的花里胡哨的edge映射到了一个共享的隐空间中(其中的向量可以表示高级的属性信息)

将属性向量作为桥梁,将sketch2image的问题转化到了edge2image,而无需收集手绘的前景sketch来作为训练数据
由此可以处理在图片和多变的sketch建立对应关系的匹配问题


Dataset-SketchyCOCO

基于MS COCO Stuff数据集,作者推出了一个大规模综合数据集 SketchyCOCO

当前版本包含了14K+的成对(sketchs - images)的场景级图片
覆盖14个类的20K+组图片:前景sketches - images - edge maps
包含3个类的27K+成对图片 背景sketches - images
14K+的场景sketches的分割GT
与现有的sketch2image方法相比,无论是定性还是定量的结果上,EdgeGAN都表现出了优异的性能
Contribution:
1. 提出了基于深度神经网络的sketch2image框架
2. 端到端的sketch2image生成模型EdgeGAN,无需成对的图片作为训练数据
3. 基于MS COCO Stuff构建大型数据集SketchyCOCO

Workflow

在这里插入图片描述

1.对输入的sketch进行定位和识别(分割方法源于《language-based-colorization-of-scene-sketches》(ACM TOG 2019)
2. 随后对于其中识别为foreground类的各个object独立进行图像生成(图中斑马)
3. 将生成的前景图和属于background的sketches作为输入,生成最终的图像


Model

主要包括两个模型
foreground generationbackground generation 两个部分

Foreground generation

在这里插入图片描述
不同于 SketchGAN 直接匹配 single image 和 对应的sketch
作者将输入sketch的表达意图编码为attribute vector,并使用L1loss使得noise vector的分布向attribute vector靠拢

Background generation
背景生成中的关键挑战在于 背景是由大量的 sketch 和 blank 两部分组成的
而其中blank区域能够提供的约束不足,使得生成图片存在相当的不确定性
作者通过加入 foreground generation 生成的前景图片作为约束 
并训练pix2pix用于生成对应的背景(paper中没有给出更为具体的描述)

Results

在这里插入图片描述
在single object generation上,EdgeGAN是明显优于其他Model的

在这里插入图片描述
作者将本文结果与其他Scene level sketch2image模型
以及 GauGAN、Asheual等使用其他输入(layout/scenegraph)的模型输出图片做了对比

其中,SS(Shape Similarity)是input sketch 和利用生成的图片所得到的edge map的 L2 Gabor feature distance
Realism由FID和Acc计算得来,FID越低,Acc越高,则model在Realism数值上表现越好
Faithfulness则是通过计算 input sketch 和生成图片的edge map之间 的 相似度

结果可以看出
当前的Scene level sketch2image模型中 EdgeGAN总体表现较好
相比约束较少的采用其他输入的model,EdgeGAN在FID(local)和Realism上也具备一定优势

其中FID(local)是通过计算生成图片中的foreground区域所得
这也意味着在single object的图片生成中,EdgeGAN更具优势

discussion and limitation

Controllability in Background Generation

在这里插入图片描述

上图中验证了background的可控性,不同数量的 grass 和 tree 在最终生成的图片背景中得到了不同的效果

Dataset Bias and Sketch Segmentation

Q1:Dataset Bias

作者对数据集中foreground类中目标的不同角度做了统计分析,发现存在相当程度的不均现象
在这里插入图片描述
由于foreground object images在生成background时起到约束作用
这样的bias一定程度上影响了background生成时的偏好

Q2:Sketch Segementation

在使用当前的实例分割算法进行Sketch Segementation时,当输入sketch过于抽象时,会出现错误分类的情况


个人总结

  • main contribution
    – 提出了基于MS COCO 提出了包含14个foreground,3个background的Sketch COCO数据集
    – 设计了EdgeGAN(主要在前景生成中)
    – 第一篇Scene level object image Generation from sketch
    – 在现有条件下,生成效果相当不错
  • 存在的问题
    – 受限于数据集,前背景类别都有限
    – 全景图生成时,不能很好的控制整体的光影效果,前景和背景仍存在较强的不协调感
    – 在全景中存在多个object时,会对背景生成造成区域性影响,从而导致图片整体不协调
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值