Task
Description:根据sketch生成全景图
Input: 包含前景sketch(如上图中的斑马,长颈鹿,大象等)和背景sketch(如草-草地,白云-天空,树-森林等)的全景级freehand sketch。
Output:对应的Real Scene Image
Introduction
作者表示sketch相比其他信息(text / semantics maps / scene graph)更加能够表现用户的意向。
(sketch自然的包含了一些物体细节,例如:物体姿态 / 位置 / 形状)
sketch2Image中的难点在于生成能够反映用户意图的图片
sketch区分 前景 和 背景
大多数用户更加在意前景的生成效果和细节,同时也在前景上提供了更加具体和细节的描绘
相比之下,背景大多数是留白或者是简略的线条
问题在于如何处理这两种不同的需求
method
为了出了上述问题,作者将处理分为两个阶段
(1)前景图生成,尽可能地满足用户特定要求
(2)背景图生成,生成与sketch位置对齐的图片内容
生成的前景图为背景增加了限制,也就是说这种先前景后背景的方式,降低了背景图生成的难度
由于sketch本身具有抽象性和不确定性
为了解决由此带来的数据差异问题,作者设计了一个新的神经网络算法 EdgeGAN
该算法将图片和对应的花里胡哨的edge映射到了一个共享的隐空间中(其中的向量可以表示高级的属性信息)
将属性向量作为桥梁,将sketch2image的问题转化到了edge2image,而无需收集手绘的前景sketch来作为训练数据
由此可以处理在图片和多变的sketch建立对应关系的匹配问题
Dataset-SketchyCOCO
基于MS COCO Stuff数据集,作者推出了一个大规模综合数据集 SketchyCOCO
当前版本包含了14K+的成对(sketchs - images)的场景级图片
覆盖14个类的20K+组图片:前景sketches - images - edge maps
包含3个类的27K+成对图片 背景sketches - images
14K+的场景sketches的分割GT
与现有的sketch2image方法相比,无论是定性还是定量的结果上,EdgeGAN都表现出了优异的性能
Contribution:
1. 提出了基于深度神经网络的sketch2image框架
2. 端到端的sketch2image生成模型EdgeGAN,无需成对的图片作为训练数据
3. 基于MS COCO Stuff构建大型数据集SketchyCOCO
Workflow
1.对输入的sketch进行定位和识别(分割方法源于《language-based-colorization-of-scene-sketches》(ACM TOG 2019))
2. 随后对于其中识别为foreground类的各个object独立进行图像生成(图中斑马)
3. 将生成的前景图和属于background的sketches作为输入,生成最终的图像
Model
主要包括两个模型
即 foreground generation 和 background generation 两个部分
Foreground generation
不同于 SketchGAN 直接匹配 single image 和 对应的sketch
作者将输入sketch的表达意图编码为attribute vector,并使用L1loss使得noise vector的分布向attribute vector靠拢
Background generation
背景生成中的关键挑战在于 背景是由大量的 sketch 和 blank 两部分组成的
而其中blank区域能够提供的约束不足,使得生成图片存在相当的不确定性
作者通过加入 foreground generation 生成的前景图片作为约束
并训练pix2pix用于生成对应的背景(paper中没有给出更为具体的描述)
Results
在single object generation上,EdgeGAN是明显优于其他Model的
作者将本文结果与其他Scene level sketch2image模型
以及 GauGAN、Asheual等使用其他输入(layout/scenegraph)的模型输出图片做了对比
其中,SS(Shape Similarity)是input sketch 和利用生成的图片所得到的edge map的 L2 Gabor feature distance
Realism由FID和Acc计算得来,FID越低,Acc越高,则model在Realism数值上表现越好
Faithfulness则是通过计算 input sketch 和生成图片的edge map之间 的 相似度
结果可以看出
当前的Scene level sketch2image模型中 EdgeGAN总体表现较好
相比约束较少的采用其他输入的model,EdgeGAN在FID(local)和Realism上也具备一定优势
其中FID(local)是通过计算生成图片中的foreground区域所得
这也意味着在single object的图片生成中,EdgeGAN更具优势
discussion and limitation
Controllability in Background Generation
上图中验证了background的可控性,不同数量的 grass 和 tree 在最终生成的图片背景中得到了不同的效果
Dataset Bias and Sketch Segmentation
Q1:Dataset Bias
作者对数据集中foreground类中目标的不同角度做了统计分析,发现存在相当程度的不均现象
由于foreground object images在生成background时起到约束作用
这样的bias一定程度上影响了background生成时的偏好
Q2:Sketch Segementation
在使用当前的实例分割算法进行Sketch Segementation时,当输入sketch过于抽象时,会出现错误分类的情况
个人总结
- main contribution
– 提出了基于MS COCO 提出了包含14个foreground,3个background的Sketch COCO数据集
– 设计了EdgeGAN(主要在前景生成中)
– 第一篇Scene level object image Generation from sketch
– 在现有条件下,生成效果相当不错 - 存在的问题
– 受限于数据集,前背景类别都有限
– 全景图生成时,不能很好的控制整体的光影效果,前景和背景仍存在较强的不协调感
– 在全景中存在多个object时,会对背景生成造成区域性影响,从而导致图片整体不协调