【CVPR 2018】Image Generation from Scene Graphs从场景图中生成图像 [文本转图]

最新推荐文章于 2024-06-07 09:57:12 发布

luolan9611

最新推荐文章于 2024-06-07 09:57:12 发布

阅读量1.2w

点赞数 14

分类专栏：论文阅读笔记与翻译文章标签：图像生成语义推理李飞飞场景图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luolan9611/article/details/79899325

版权

这是李飞飞团队2018年被CVPR接收的一篇文章。PDF下载链接为：https://arxiv.org/abs/1804.01622

（2018.7.6添加）Github代码下载链接：https://github.com/google/sg2im

在这里放上我CSDN的下载链接：

https://download.csdn.net/download/luolan9611/10373565

文件包里有我根据这篇论文做的讲解PPT（如果你要向别人做分享的话，可以在我PPT的基础上进行修改）、这篇论文带注释的PDF，还有这篇论文中提到的几篇论文比如StackGAN，比如GoodFellow大神的GAN的论文等。如有错误，请多指教！

摘要

现有的根据自然语言生成图像的方法，难以生成语言描述中包含多个物体和之间关系的图。于是，作者提出了一个图像生成网络模型，该模型用图卷积处理输入场景图，根据bounding box等计算场景布局，然后把布局用级联细化网络转换成图像。这个网络是针对一对鉴别模型进行训练的，Dimg和Dobj分别用来鉴别真实图像和真实对象，来确保输出的图像真实自然。

引言

现有的由文本生成图像的方法主要是结合递归神经网络（RNN）和生成对抗网络（GAN）来实现的。此前出现了很多效果让人惊叹的由文本转图的方法，其中有代表性的为ICCV 2016 2017的StackGAN方法，它在生成花鸟方面的效果确实Amazing，而且能达到256*256的高分辨率。要知道，在这篇文章之前，生成图像的分辨率几乎都局限在64*64。

下面展示一下StackGAN根据文本描述语言生成的图像效果：

StackGAN生成图像分为两个阶段，第一阶段根据给定描述描绘物体大致轮廓和基本的颜色信息，生成低分辨率的图像。
第二阶段把阶段1的结果和文本描述作为输入，生成带有逼真细节的高分辨率图片。

比如上图中第二列的鸟，This bird is white with some black on its head and wings, and has a long orange beak. 这只鸟是白色的，脑袋和翅膀上带点黑色，有

最低0.47元/天解锁文章

关注

14
点赞
踩
52

收藏

觉得还不错? 一键收藏
14
评论
【CVPR 2018】Image Generation from Scene Graphs从场景图中生成图像 [文本转图]

这是李飞飞团队2018年被CVPR接收的一篇文章。PDF下载链接为：https://arxiv.org/abs/1804.01622（2018.7.6添加）Github代码下载链接：https://github.com/google/sg2im在这里放上我CSDN的下载链接：https://download.csdn.net/download/luolan9611/10373565...
复制链接

扫一扫

专栏目录

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。