通过推测语义布局,层级形式文本到图像的合成《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》

该博客介绍了如何通过推测语义布局实现层级文本到图像的合成,涉及bounding box生成、shape生成和image生成的过程,利用LSTM、卷积循环神经网络和对抗生成网络等技术,旨在生成与文本描述相符的真实感图像。
摘要由CSDN通过智能技术生成

perceptual loss

一、从文本来推断语义布局
1.bounding box 的生成
bounding box (图1中的box)决定了生成图片的全局布局,因为,box定义了图片中有哪种目标以及将这些目标放到哪些位置。我们将第 t 个标注的 bounding box 表示为

这里写图片描述
图二. 其中, b_{t} 里面包含四个变量,分别表示bounding box 的位置和大小 { x , y , w , h }. l_{t} 是一个在 L 类别上的 one-hot 向量。我们保留了 第( L+1)个类作为结束序列(sequence)的特殊指示。
举一个one hot 的例子,比如一共有 L=3 个类,猫{ 0, 1} , 兔{ 0, 1 }和 狗{ 0,1},若第 t 个 bounding box 的 label 是狗,那么l_{t} = {0,0, 1}. 若是猫的话,这个one hot向量就变为 l_{t} = {1, 0, 0}。优点是稀疏。缺点是向量长度由类别定。但在文字生成图片的任务中,类别是固定的,所以,one hot 可行。

这里写图片描述
图三 . box 生成器
A. box 生成器模型
box 生成器模型是定义了一个从 输入文本s 到 一组目标bounding box 的 随机映射。使用了一个自回归的解码器为box generator 建模。

这里写图片描述
图四. 如何建模,将左边这个概率模型分解为右边这个,而右边这个模型,与LSTM解决的问题很切合,比如:LSTM的输入是(之前网络的输出 + 当前输入)。右侧模型输入是(之前box 的分布 + 句子的输入)这位书友写的LSTM很不错。
在生成 box 的过程中,首先为第 t 个目标采样类标签 l_{t} , 然后基于l_{t} 生成坐标信息b_{t} —— 省略了图三中p() 和 ‘ I ’ 后面条件的内容。 这两个部分分别由一个高斯混合模型和一个类分布模型建模。l_{t}由 类分布得到。 b_{t} 由高斯混合模型得到,论文中解释道,这个高斯模型由一个四变量(x, y, w, h)的高斯混合模型分解为两个两变量(x, y) 和 (w, h) 的高斯混合模型,目的是减少参数个数,就是计算量。一般高斯混合模型中有三个采参数需要估计,π、μ、∑ 。权重系数π是实数,均值μ是四维向量,方差∑是4*4协方差矩阵. 从图三中看,这些参数都是由 L

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值