【CVPR 2018】Image Generation from Scene Graphs从场景图中生成图像 [文本转图]

这是李飞飞团队2018年被CVPR接收的一篇文章。PDF下载链接为:https://arxiv.org/abs/1804.01622

(2018.7.6添加)Github代码下载链接https://github.com/google/sg2im

在这里放上我CSDN的下载链接:

https://download.csdn.net/download/luolan9611/10373565

文件包里有我根据这篇论文做的讲解PPT(如果你要向别人做分享的话,可以在我PPT的基础上进行修改)、这篇论文带注释的PDF,还有这篇论文中提到的几篇论文比如StackGAN,比如GoodFellow大神的GAN的论文等。如有错误,请多指教!

摘要

现有的根据自然语言生成图像的方法,难以生成语言描述中包含多个物体和之间关系的图。于是,作者提出了一个图像生成网络模型,该模型用图卷积处理输入场景图,根据bounding box等计算场景布局,然后把布局用级联细化网络转换成图像。这个网络是针对一对鉴别模型进行训练的,Dimg和Dobj分别用来鉴别真实图像和真实对象,来确保输出的图像真实自然。

引言

现有的由文本生成图像的方法主要是结合递归神经网络(RNN)和生成对抗网络(GAN)来实现的。此前出现了很多效果让人惊叹的由文本转图的方法,其中有代表性的为ICCV 2016 2017的StackGAN方法,它在生成花鸟方面的效果确实Amazing,而且能达到256*256的高分辨率。要知道,在这篇文章之前,生成图像的分辨率几乎都局限在64*64。

下面展示一下StackGAN根据文本描述语言生成的图像效果:

StackGAN生成图像分为两个阶段,第一阶段根据给定描述描绘物体大致轮廓和基本的颜色信息,生成低分辨率的图像。
第二阶段把阶段1的结果和文本描述作为输入,生成带有逼真细节的高分辨率图片。

比如上图中第二列的鸟,This bird is white with some black on its head and wings, and has a long orange beak. 这只鸟是白色的,脑袋和翅膀上带点黑色,有

  • 14
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
CVPR2018首次引入了一个名为ClipQ(Clip Quality)的评价指标,用于衡量图像检索的质量。传统的图像检索任务通常使用精确率(Precision)和召回率(Recall)作为评估指标,但这两个指标无法完全反映出图像检索结果的质量。 ClipQ主要关注图像检索的相关性和质量。相关性衡量了检索结果与查询的相关程度,质量则表示结果图像与查询图像的视觉质量。传统的评价指标没有考虑到结果图像的质量因素,因此引入ClipQ指标,它综合考虑了图像的相关性和质量,能够更加客观地评估图像检索任务的效果。 ClipQ的计算方法主要依赖于两个因素:应答质量和应答分布。应答质量是通过计算两个图像之间的相似度来衡量的,相似度越高,应答质量越好。应答分布则是通过衡量相似图像在结果集合中的分布情况来计算的,分布越均匀表示应答品质越好。 通过结合应答质量和应答分布,ClipQ可以量化图像检索结果的质量。它能够在保证结果相关性的同时,进一步提高结果图像的质量,从而使得图像检索结果更加准确和精细。 总之,CVPR2018引入的ClipQ评价指标为图像检索任务提供了一种全新的评估方式。它综合考虑了图像的相关性和质量两个因素,可以更加客观地评估图像检索结果的好坏。ClipQ的引入将有助于推动图像检索领域的发展,提高图像检索任务的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值