Image Generation from Scene Graphs 论文解读

论文链接: https://arxiv.org/abs/1804.01622.
GitHub代码: https://github.com/google/sg2im.

对于文本生成图片(Text-to-Image)的任务,如果一开始将scene layout(场景布局)作为中间媒介,连接text domain 和 image domain,将会取得很好的结果。但是这个想法实现起来需要很多方面难题要解决,比如数据集、场景布局的处理、场景图(scene graph)的生成以及场景图的处理等等。

在这篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff数据集,由Scene Graph生成与文本一致的图像。关于这两个数据集详细介绍就不说了,但是Visual Geome有现成的scene graph拿来使用,而COCO-Stuff数据集在论文中要对其处理后拿来使用。

创新点有:

  1. 提出graph convolution 模块处理输入的scene graph。
  2. 提出两个判别器网络Dimg和Dobj

与以往方法的流程有所不同,主要与stackgan作的对比
在这里插入图片描述

整个网络结构:

在这里插入图片描述
主要有三方面的挑战:

  1. 必须要有一个处理场景图的方法
  2. 确保生成的图像中个物体正确及位置关系的合理性
  3. 确保生成的图像质量好
    输入scene graph G和噪音 z ,输出图片 I ^ \hat{I} I^
    在这里插入图片描述
Scene Graphs

场景图的node(点)表示object(物体),edge(边)表示个点间的相互关系。用数学公式表达是:
C是物体集合,R是关系集合,一个场景图就是一个元组(O,E),O={o1,……,on},oi ∈ C,E ⊆ O x R x O是边(oi,ri,oj)的集合,r ∈ R。

Graph Convolution Network

为了以end-to-end的方式处理场景图,我们需要一个神经网络模型,就是graph convolution network,它是由多个single graph convolution layer(看下图)组成的。
在这里插入图片描述
vi</

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值