【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读

本文介绍了CVPR2019论文中提出的Obj-GAN,一种基于对抗训练的对象驱动的文本到图像生成方法。Obj-GAN通过结合语义布局和单词级信息,使用注意力机制生成图像,并通过object-wise和patch-wise判别器进行验证,确保生成的图像与文本描述和语义布局匹配。
摘要由CSDN通过智能技术生成

【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读

本人的话:思路可以借鉴,效果不太好

提出了可以捕捉word/object-level information的Obj-GAN( Object-driven Attentive Generative Adversarial Networks):

  1. 将文本描述和预生成的semantic layout作为image generator的输入。在每一层,generator关注与边框里的物体最相关的单词来合成图片区域。
  2. 使用object-driven attention layer,它使用类标签来查询句子里的单词,形成单词上下文向量。
  3. object-wise discriminator检查每个边框确保生成的物体与semantic layout匹配。基于Fast R-CNN。
    在这里插入图片描述

Object-driven Attentive GAN

如下图所示,Obj-GAN的生成过程包含生成semantic layout(类标签、边框、显著目标的形状)和生成图片两步。
输入:含Ts个token的句子。通过预训练的双向LSTM,我们将其编码为单词向量e∈RDxTs,以及全局句子向量e’∈RD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值