Diverse and Accurate Image Description Using a Variational Auto-Encoder

来自NIPS2017的论文Diverse and Accurate Image Description Using a
Variational Auto-Encoder with an Additive Gaussian Encoding Space

研究内容

视觉Captioning问题:图片生成Caption

主要工作

Additive Gaussian VAE

关键思想

利用VAE学习数据分类的分布

网络框架

这里写图片描述
上面的图中第一个公式是变分自编码器的恒等式,也是基础公式。变分自编码器主要是想要学习一个分布p(x),为了完成这个工作,有一个中间变量z,红框的概率我们没有办法直接计算,所以使用绿框中的概率来近似,这个近似的度量方法是KL散度,因为我们的目标是让KL散度尽量的小,而本身KL散度又是一个大于0的数,所以等式右边是左边的一个下确界,这样就得到了第二个公式。只是第二个公式当中增加了条件信息c。期望不好直接计算,我们将其通过采样转化为求和。
这里写图片描述
网络的左边编码,第二步的LSTM使用的输入是使用聚类学到的聚类信息,最后一个LSTM单元的输出被分解成不同的信息,并使用高斯模型类进行拟合学习到一个分布,在解码器的第三步的输入z就是在这个学到的分布上的采样操作。聚类信息在测试的时候是通过目标检测的方法获得的。

这里写图片描述
在用高斯混合模型去拟合隐含变量的分布的时候,文中给了两种方式,一种是单独在不同聚类中心之间切换,另一种方式是在聚类中心的中心采样。具体可以参看论文。

相关工作 (基于语义信息的方法)

Conditianal gan. (ICCV, 2017)
Adveersarial training. (ICCV, 2017)
Generating diverse questions using CVAE. (ICCV, 2015)

关注点

VAE
应用领域

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

binqiang2wang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值