Image Generation from Scene Graphs 论文解读

最新推荐文章于 2024-06-20 00:19:56 发布

迷途的CH

最新推荐文章于 2024-06-20 00:19:56 发布

阅读量1.3k

点赞数 3

文章标签： text-to-image GAN Scene Graph AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43551972/article/details/102521302

版权

论文链接: https://arxiv.org/abs/1804.01622.
GitHub代码: https://github.com/google/sg2im.

对于文本生成图片（Text-to-Image）的任务，如果一开始将scene layout（场景布局）作为中间媒介，连接text domain 和 image domain，将会取得很好的结果。但是这个想法实现起来需要很多方面难题要解决，比如数据集、场景布局的处理、场景图（scene graph）的生成以及场景图的处理等等。

在这篇CVPR 2018的文章中，使用Visual Geome 和COCO-Stuff数据集，由Scene Graph生成与文本一致的图像。关于这两个数据集详细介绍就不说了，但是Visual Geome有现成的scene graph拿来使用，而COCO-Stuff数据集在论文中要对其处理后拿来使用。

创新点有：

提出graph convolution 模块处理输入的scene graph。
提出两个判别器网络D_img和D_obj。

与以往方法的流程有所不同，主要与stackgan作的对比
在这里插入图片描述

整个网络结构：

在这里插入图片描述
主要有三方面的挑战：

必须要有一个处理场景图的方法
确保生成的图像中个物体正确及位置关系的合理性
确保生成的图像质量好
输入scene graph G和噪音 z ，输出图片 $\hat{I}$

Scene Graphs

场景图的node（点）表示object（物体），edge（边）表示个点间的相互关系。用数学公式表达是：
C是物体集合，R是关系集合，一个场景图就是一个元组（O,E），O={o₁,……,o_n},o_i ∈ C,E ⊆ O x R x O是边（o_i，r_i，o_j）的集合，r ∈ R。

Graph Convolution Network

为了以end-to-end的方式处理场景图，我们需要一个神经网络模型，就是graph convolution network，它是由多个single graph convolution layer（看下图）组成的。
在这里插入图片描述
v_i</

最低0.47元/天解锁文章

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
Image Generation from Scene Graphs 论文解读

论文链接: https://arxiv.org/abs/1804.01622.GitHub代码: https://github.com/google/sg2im.对于文本生成图片（Text-to-Image）的任务，如果一开始将scene layout（场景布局）作为中间媒介，连接text domain 和 image domain，将会取得很好的结果。但是这个想法实现起来需要很多方面难题要解...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。