通过推测语义布局，层级形式文本到图像的合成《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》

最新推荐文章于 2024-03-04 11:31:43 发布

爱视觉

最新推荐文章于 2024-03-04 11:31:43 发布

阅读量561

点赞数

分类专栏：论文阅读文章标签：文本生成图像 text to image

本文链接：https://blog.csdn.net/ningning52107/article/details/80223570

版权

该博客介绍了如何通过推测语义布局实现层级文本到图像的合成，涉及bounding box生成、shape生成和image生成的过程，利用LSTM、卷积循环神经网络和对抗生成网络等技术，旨在生成与文本描述相符的真实感图像。

摘要由CSDN通过智能技术生成

perceptual loss

一、从文本来推断语义布局
1.bounding box 的生成
bounding box (图1中的box)决定了生成图片的全局布局，因为，box定义了图片中有哪种目标以及将这些目标放到哪些位置。我们将第 t 个标注的 bounding box 表示为

这里写图片描述
图二. 其中, b_{t} 里面包含四个变量，分别表示bounding box 的位置和大小 { x , y , w , h }. l_{t} 是一个在 L 类别上的 one-hot 向量。我们保留了第（ L+1）个类作为结束序列（sequence）的特殊指示。
举一个one hot 的例子，比如一共有 L=3 个类，猫{ 0， 1} ，兔{ 0, 1 }和狗{ 0，1}，若第 t 个 bounding box 的 label 是狗，那么l_{t} = {0，0, 1}. 若是猫的话，这个one hot向量就变为 l_{t} = {1, 0, 0}。优点是稀疏。缺点是向量长度由类别定。但在文字生成图片的任务中，类别是固定的，所以，one hot 可行。

这里写图片描述
图三 . box 生成器
A. box 生成器模型
box 生成器模型是定义了一个从输入文本s 到一组目标bounding box 的随机映射。使用了一个自回归的解码器为box generator 建模。

这里写图片描述
图四. 如何建模，将左边这个概率模型分解为右边这个，而右边这个模型，与LSTM解决的问题很切合，比如：LSTM的输入是（之前网络的输出 + 当前输入）。右侧模型输入是（之前box 的分布 + 句子的输入）这位书友写的LSTM很不错。
在生成 box 的过程中，首先为第 t 个目标采样类标签 l_{t} ，然后基于l_{t} 生成坐标信息b_{t} —— 省略了图三中p() 和 ‘ I ’ 后面条件的内容。这两个部分分别由一个高斯混合模型和一个类分布模型建模。l_{t}由类分布得到。 b_{t} 由高斯混合模型得到，论文中解释道，这个高斯模型由一个四变量（x, y, w, h）的高斯混合模型分解为两个两变量(x, y) 和 (w, h) 的高斯混合模型，目的是减少参数个数,就是计算量。一般高斯混合模型中有三个采参数需要估计，π、μ、∑ 。权重系数π是实数，均值μ是四维向量，方差∑是4*4协方差矩阵. 从图三中看，这些参数都是由 L

最低0.47元/天解锁文章

爱视觉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
通过推测语义布局，层级形式文本到图像的合成《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》

一、从文本来推断语义布局 1.bounding box 的生成 bounding box (图1中的box)决定了生成图片的全局布局，因为，box定义了图片中有哪种目标以及将这些目标放到哪些位置。我们将第 t 个标注的 bounding box 表示为图二. 其中, b_{t} 里面包含四个变量，分别表示bounding box 的位置和大小 { x , y , w , h...
复制链接

扫一扫