(sketch to image) 论文阅读笔记 SketchyCOCO:Image Generation from Freehand Scene Sketches

最新推荐文章于 2023-10-08 20:57:54 发布

liuyuhaha123

最新推荐文章于 2023-10-08 20:57:54 发布

阅读量2k

点赞数 3

分类专栏： sketch2image 文章标签：深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/liuyuhaha123/article/details/109400096

版权

sketch2image 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述

Task

Description：根据sketch生成全景图
Input：包含前景sketch（如上图中的斑马，长颈鹿，大象等）和背景sketch（如草-草地，白云-天空，树-森林等）的全景级freehand sketch。
Output：对应的Real Scene Image

Introduction

作者表示sketch相比其他信息（text / semantics maps / scene graph）更加能够表现用户的意向。
（sketch自然的包含了一些物体细节，例如：物体姿态 / 位置 / 形状）
sketch2Image中的难点在于生成能够反映用户意图的图片

sketch区分前景和背景
大多数用户更加在意前景的生成效果和细节，同时也在前景上提供了更加具体和细节的描绘
相比之下，背景大多数是留白或者是简略的线条
问题在于如何处理这两种不同的需求

method

为了出了上述问题，作者将处理分为两个阶段
（1）前景图生成，尽可能地满足用户特定要求
（2）背景图生成，生成与sketch位置对齐的图片内容
生成的前景图为背景增加了限制，也就是说这种先前景后背景的方式，降低了背景图生成的难度

由于sketch本身具有抽象性和不确定性
为了解决由此带来的数据差异问题，作者设计了一个新的神经网络算法 EdgeGAN
该算法将图片和对应的花里胡哨的edge映射到了一个共享的隐空间中（其中的向量可以表示高级的属性信息）

将属性向量作为桥梁，将sketch2image的问题转化到了edge2image，而无需收集手绘的前景sketch来作为训练数据
由此可以处理在图片和多变的sketch建立对应关系的匹配问题

Dataset-SketchyCOCO

基于MS COCO Stuff数据集，作者推出了一个大规模综合数据集 SketchyCOCO

当前版本包含了14K+的成对（sketchs - images）的场景级图片
覆盖14个类的20K+组图片：前景sketches - images - edge maps
包含3个类的27K+成对图片 背景sketches - images
14K+的场景sketches的分割GT
与现有的sketch2image方法相比，无论是定性还是定量的结果上，EdgeGAN都表现出了优异的性能

Contribution：

1. 提出了基于深度神经网络的sketch2image框架
2. 端到端的sketch2image生成模型EdgeGAN，无需成对的图片作为训练数据
3. 基于MS COCO Stuff构建大型数据集SketchyCOCO

Workflow

在这里插入图片描述

1.对输入的sketch进行定位和识别（分割方法源于《language-based-colorization-of-scene-sketches》（ACM TOG 2019））
2. 随后对于其中识别为foreground类的各个object独立进行图像生成（图中斑马）
3. 将生成的前景图和属于background的sketches作为输入，生成最终的图像

Model

主要包括两个模型
即 foreground generation 和 background generation 两个部分

Foreground generation

在这里插入图片描述
不同于 SketchGAN 直接匹配 single image 和对应的sketch
作者将输入sketch的表达意图编码为attribute vector，并使用L1loss使得noise vector的分布向attribute vector靠拢

Background generation

背景生成中的关键挑战在于 背景是由大量的 sketch 和 blank 两部分组成的
而其中blank区域能够提供的约束不足，使得生成图片存在相当的不确定性
作者通过加入 foreground generation 生成的前景图片作为约束 
并训练pix2pix用于生成对应的背景（paper中没有给出更为具体的描述）

Results

在这里插入图片描述
在single object generation上，EdgeGAN是明显优于其他Model的

在这里插入图片描述
作者将本文结果与其他Scene level sketch2image模型
以及 GauGAN、Asheual等使用其他输入（layout/scenegraph）的模型输出图片做了对比

其中，SS（Shape Similarity）是input sketch 和利用生成的图片所得到的edge map的 L2 Gabor feature distance
Realism由FID和Acc计算得来，FID越低，Acc越高，则model在Realism数值上表现越好
Faithfulness则是通过计算 input sketch 和生成图片的edge map之间 的 相似度

结果可以看出
当前的Scene level sketch2image模型中 EdgeGAN总体表现较好
相比约束较少的采用其他输入的model，EdgeGAN在FID（local）和Realism上也具备一定优势

其中FID（local）是通过计算生成图片中的foreground区域所得
这也意味着在single object的图片生成中，EdgeGAN更具优势

discussion and limitation

Controllability in Background Generation

在这里插入图片描述

上图中验证了background的可控性，不同数量的 grass 和 tree 在最终生成的图片背景中得到了不同的效果

Dataset Bias and Sketch Segmentation

Q1:Dataset Bias

作者对数据集中foreground类中目标的不同角度做了统计分析，发现存在相当程度的不均现象
在这里插入图片描述
由于foreground object images在生成background时起到约束作用
这样的bias一定程度上影响了background生成时的偏好

Q2:Sketch Segementation

在使用当前的实例分割算法进行Sketch Segementation时，当输入sketch过于抽象时，会出现错误分类的情况

个人总结

main contribution
– 提出了基于MS COCO 提出了包含14个foreground，3个background的Sketch COCO数据集
– 设计了EdgeGAN（主要在前景生成中）
– 第一篇Scene level object image Generation from sketch
– 在现有条件下，生成效果相当不错
存在的问题
– 受限于数据集，前背景类别都有限
– 全景图生成时，不能很好的控制整体的光影效果，前景和背景仍存在较强的不协调感
– 在全景中存在多个object时，会对背景生成造成区域性影响，从而导致图片整体不协调

liuyuhaha123

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
(sketch to image) 论文阅读笔记 SketchyCOCO:Image Generation from Freehand Scene Sketches

摘要文章提出了一种Sketch2image的模型，可以通过手绘草图指定合成目标。本文提出的模型为EdgeGAN，支持高质量图片（在无草图的情况下）作为训练数据。作者构建了一个新的数据集名为SketchyCOCO...
复制链接

扫一扫