来自NIPS2017的论文Diverse and Accurate Image Description Using a
Variational Auto-Encoder with an Additive Gaussian Encoding Space
。
研究内容
视觉Captioning问题:图片生成Caption
主要工作
Additive Gaussian VAE
关键思想
利用VAE学习数据分类的分布
网络框架
上面的图中第一个公式是变分自编码器的恒等式,也是基础公式。变分自编码器主要是想要学习一个分布p(x),为了完成这个工作,有一个中间变量z,红框的概率我们没有办法直接计算,所以使用绿框中的概率来近似,这个近似的度量方法是KL散度,因为我们的目标是让KL散度尽量的小,而本身KL散度又是一个大于0的数,所以等式右边是左边的一个下确界,这样就得到了第二个公式。只是第二个公式当中增加了条件信息c。期望不好直接计算,我们将其通过采样转化为求和。
网络的左边编码,第二步的LSTM使用的输入是使用聚类学到的聚类信息,最后一个LSTM单元的输出被分解成不同的信息,并使用高斯模型类进行拟合学习到一个分布,在解码器的第三步的输入z就是在这个学到的分布上的采样操作。聚类信息在测试的时候是通过目标检测的方法获得的。
在用高斯混合模型去拟合隐含变量的分布的时候,文中给了两种方式,一种是单独在不同聚类中心之间切换,另一种方式是在聚类中心的中心采样。具体可以参看论文。
相关工作 (基于语义信息的方法)
Conditianal gan. (ICCV, 2017)
Adveersarial training. (ICCV, 2017)
Generating diverse questions using CVAE. (ICCV, 2015)
关注点
VAE
应用领域