Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis 论文解读

最新推荐文章于 2021-01-03 04:27:41 发布

迷途的CH

最新推荐文章于 2021-01-03 04:27:41 发布

阅读量337

点赞数 1

本文链接：https://blog.csdn.net/weixin_43551972/article/details/102372078

版权

好久没写论文解读的博客了，这段时间主要是搞自己的paper，所以没有阅读相关text-to-image的paper了，今天解读一下这篇论文，都是自己的想法，有不对的地方希望大家批评指正，在此谢过了。

论文链接: https://arxiv.org/pdf/1801.05091.pdf.

这篇是CVPR 2018的paper，而CVPR 2019 的Obj-GAN 主要也用到了这里的idea。我们都知道，图片生成的质量好坏，其实主要在text处理这一块上。这篇论文主要创新点是提出了semantic layout结构，包括两个模块：

Box Generator。用LSTM生成文本描述中的每个物体的边界框（box）。
Shape Generator。用生成的边界框生成物体的大致形状（instance-wise masks），然后输入到image generator中。
之前也有工作做semantic layout，最近的是NIPS 2016 “Learning what and where to draw”。但是都没有这篇文章好。

首先看一下box和mask是什么样的：

在这里插入图片描述

整个网络结构为：

在这里插入图片描述
整个网络结构十分清晰易理解，用了三个生成器：Box Generator,Shape Generator 和 Image Generator。

Bouding Box Generation

对于输入的文本嵌入向量 s，我们首先要一物体边界框（object bounding box）的形式生成一个粗糙的图像布局。我们用每个带有类别标签的B_t边界框来定义每个类的物体是什么样的及放置在图像的什么地方。
box generator G_box定义如下：
在这里插入图片描述
B_1:T={B₁,……,B_t,……,B_T},其中B_t=(b_t,l_t),而b_t=[b_t,x,b_t,y,b_t,w,b_t,h] ∈ R⁴表示边界框的位置和大小，l_t ∈ {0,1}^L+1表示的是在总共L个类别中一点的类别标签，而l_L+1 是一个终止符号，表明所有的边界框已经生成完毕。
我们用自回归解码器来生成边界框，用到下面的概率函数：
在这里插入图片描述

而上面函数的计算又用到一下公式：

我们训练bounding box generation 时用真实边界框的负log似然函数：

在这里，T是真个图像中物体的数量，λ_l,λ_b是超参数，b_t,l_t是与第t个物体相一致的真实的边界框和类别标签。
注意，我们在测试的时候是直接生成边界框了，而不是采用真实的已经存在的边界框来生成图像。

Shape Generation

为了获得更多的图像细节结构，我们用object masks 的形式利用已经生成好的bounding boxes。对于每一个B_t我们生成对应的binary mask M_t ∈ R^{H x W}表示边界框中的物体形状。之后，我们将{B_t}转换成一个二进制的向量 B_t ∈ {0,1} R^{H x W x L},当它被包含在相一致的class-label box中时取值为1。M_1:T={M₁,……,M_t,……,M_T}，则 shape generator G_mask定义如下：
在这里插入图片描述
shape generator 用卷积递归神经网络，使用 Bi-convLSTM 在第t步，convLSTM的第t步输出通过空间平铺和拼接与噪声z_t组合,然后将其通过解码器CNN网络生成 mask M_t。
训练shape generator的时候，使用了两个条件对抗损失：instance-wise discriminator D_inst 和 global discriminator D_global，分别如下：
在这里插入图片描述
此损失函数是为了让每个 M_t与物体的边界框的类别和位置信息相兼容。

此损失函数是为了让所有的 M_t形成一个全局的一致的上下文。
而为了让预测生成的 M_t与真实的semantic layout一致，我们又加入了重构损失函数（reconstruction loss）：
在这里插入图片描述
最终的shape generator 函数是：

Image Generator

在这里插入图片描述
由box generator 和 shape generator 得到 semantic label map M ∈ {0,1} R^{H x W x L},而M_ijk=1是当且仅当第k类物体的 M_t覆盖了像素（i,j）。image generator 被定义为：

整个图像生成器的模型是用卷积编码-解码网络构成的。
生成器：
M通过下采样得到A ∈ R^{h x w x d}。而文本嵌入向量s通过全连接层形成一个d维的向量，又通过空间复制形成S ∈ R^{h x w x d}，然后用公式A^g = A ⊙σ(S)得到A^g，其中 σ是sigmoid非线性函数。A^g与s和z通过全连接层形成的块相连接后通过残差网络和级联解码器网络生成图像X。
判别器：
我们将X和M相连接后通过下采样与s通过全连接层得到的块相连接后判别真假。
训练的时候用到的目标函数为：
在这里插入图片描述

实验

该论文在MS-COCO数据集上验证自己的模型。评估模型的方法有Inception Score和caption generation以及human evaluation。
定量展示：
在这里插入图片描述

定性展示：

与最新的结果相比较：

还有一些别的对比和验证实验，具体的可阅读论文。欢迎大家批评指正，谢谢啦。

迷途的CH

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis 论文解读

好久没写论文解读的博客了，这段时间主要是搞自己的paper，所以没有阅读相关text-to-image的paper了，今天解读一下这篇论文，都是自己的想法，有不对的地方希望大家批评指正，在此谢过了。论文链接: https://arxiv.org/pdf/1801.05091.pdf.这篇是CVPR 2018的paper，而CVPR 2019 的Obj-GAN 主要也用到了这里的idea。我们都...
复制链接

扫一扫