Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis 论文解读

好久没写论文解读的博客了,这段时间主要是搞自己的paper,所以没有阅读相关text-to-image的paper了,今天解读一下这篇论文,都是自己的想法,有不对的地方希望大家批评指正,在此谢过了。

论文链接: https://arxiv.org/pdf/1801.05091.pdf.

这篇是CVPR 2018的paper,而CVPR 2019 的Obj-GAN 主要也用到了这里的idea。我们都知道,图片生成的质量好坏,其实主要在text处理这一块上。这篇论文主要创新点是提出了semantic layout结构,包括两个模块:

  1. Box Generator。用LSTM生成文本描述中的每个物体的边界框(box)。
  2. Shape Generator。用生成的边界框生成物体的大致形状(instance-wise masks),然后输入到image generator中。
  3. 之前也有工作做semantic layout,最近的是NIPS 2016 “Learning what and where to draw”。但是都没有这篇文章好。

首先看一下box和mask是什么样的:

在这里插入图片描述

整个网络结构为:

在这里插入图片描述
整个网络结构十分清晰易理解,用了三个生成器:Box Generator,Shape Generator 和 Image Generator。

Bouding Box Generation

对于输入的文本嵌入向量 s,我们首先要一物体边界框(object bounding box)的形式生成一个粗糙的图像布局。我们用每个带有类别标签的Bt边界框来定义每个类的物体是什么样的及放置在图像的什么地方。
box generator Gbox定义如下:
在这里插入图片描述
B1:T={B1,……,Bt,……,BT},其中Bt=(bt,lt),而bt=[bt,x,bt,y,bt,w,bt,h] ∈ R4表示边界框的位置和大小,lt ∈ {0,1}L+1表示的是在总共L个类别中一点的类别标签,而lL+1 是一个终止符号,表明所有的边界框已经生成完毕。
我们用自回归解码器来生成边界框,用到下面的概率函数:
在这里插入图片描述
在这里插入图片描述
而上面函数的计算又用到一下公式:
在这里插入图片描述
我们训练bounding box generation 时用真实边界框的负log似然函数:
在这里插入图片描述
在这里,T是真个图像中物体的数量,λlb是超参数,bt,lt是与第t个物体相一致的真实的边界框和类别标签。
注意,我们在测试的时候是直接生成边界框了,而不是采用真实的已经存在的边界框来生成图像。

Shape Generation

为了获得更多的图像细节结构,我们用object masks 的形式利用已经生成好的bounding boxes。对于每一个Bt我们生成对应的binary mask Mt ∈ RH x W表示边界框中的物体形状。之后,我们将{Bt}转换成一个二进制的向量 Bt ∈ {0,1} RH x W x L,当它被包含在相一致的class-label box中时取值为1。M1:T={M1,……,Mt,……,MT},则 shape generator Gmask定义如下:
在这里插入图片描述
shape generator 用卷积递归神经网络,使用 Bi-convLSTM 在第t步,convLSTM的第t步输出通过空间平铺和拼接与噪声zt组合,然后将其通过解码器CNN网络生成 mask Mt
训练shape generator的时候,使用了两个条件对抗损失:instance-wise discriminator Dinst 和 global discriminator Dglobal,分别如下:
在这里插入图片描述
此损失函数是为了让每个 Mt与物体的边界框的类别和位置信息相兼容。
在这里插入图片描述
此损失函数是为了让所有的 Mt形成一个全局的一致的上下文。
而为了让预测生成的 Mt与真实的semantic layout一致,我们又加入了重构损失函数(reconstruction loss):
在这里插入图片描述
最终的shape generator 函数是:
在这里插入图片描述

Image Generator

在这里插入图片描述
由box generator 和 shape generator 得到 semantic label map M ∈ {0,1} RH x W x L,而Mijk=1是当且仅当第k类物体的 Mt覆盖了像素(i,j)。image generator 被定义为:
在这里插入图片描述
整个图像生成器的模型是用卷积编码-解码网络构成的。
生成器:
M通过下采样得到A ∈ Rh x w x d。而文本嵌入向量s通过全连接层形成一个d维的向量,又通过空间复制形成S ∈ Rh x w x d,然后用公式Ag = A ⊙σ(S)得到Ag,其中 σ是sigmoid非线性函数。Ag与s和z通过全连接层形成的块相连接后通过残差网络和级联解码器网络生成图像X。
判别器:
我们将X和M相连接后通过下采样与s通过全连接层得到的块相连接后判别真假。
训练的时候用到的目标函数为:
在这里插入图片描述

实验

该论文在MS-COCO数据集上验证自己的模型。评估模型的方法有Inception Score和caption generation以及human evaluation。
定量展示:
在这里插入图片描述
在这里插入图片描述
定性展示:
在这里插入图片描述
与最新的结果相比较:
在这里插入图片描述
还有一些别的对比和验证实验,具体的可阅读论文。欢迎大家批评指正,谢谢啦。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值