Diverse and Accurate Image Description Using a Variational Auto-Encoder

最新推荐文章于 2024-08-28 07:00:00 发布

binqiang2wang

最新推荐文章于 2024-08-28 07:00:00 发布

阅读量519

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37052320/article/details/80605563

版权

论文阅读专栏收录该内容

26 篇文章 0 订阅

订阅专栏

来自NIPS2017的论文Diverse and Accurate Image Description Using a
Variational Auto-Encoder with an Additive Gaussian Encoding Space
。

研究内容

视觉Captioning问题：图片生成Caption

主要工作

Additive Gaussian VAE

关键思想

利用VAE学习数据分类的分布

网络框架

这里写图片描述
上面的图中第一个公式是变分自编码器的恒等式，也是基础公式。变分自编码器主要是想要学习一个分布p(x)，为了完成这个工作，有一个中间变量z,红框的概率我们没有办法直接计算，所以使用绿框中的概率来近似，这个近似的度量方法是KL散度，因为我们的目标是让KL散度尽量的小，而本身KL散度又是一个大于0的数，所以等式右边是左边的一个下确界，这样就得到了第二个公式。只是第二个公式当中增加了条件信息c。期望不好直接计算，我们将其通过采样转化为求和。
这里写图片描述
网络的左边编码，第二步的LSTM使用的输入是使用聚类学到的聚类信息，最后一个LSTM单元的输出被分解成不同的信息，并使用高斯模型类进行拟合学习到一个分布，在解码器的第三步的输入z就是在这个学到的分布上的采样操作。聚类信息在测试的时候是通过目标检测的方法获得的。

这里写图片描述
在用高斯混合模型去拟合隐含变量的分布的时候，文中给了两种方式，一种是单独在不同聚类中心之间切换，另一种方式是在聚类中心的中心采样。具体可以参看论文。

相关工作 (基于语义信息的方法)

Conditianal gan. (ICCV, 2017)
Adveersarial training. (ICCV, 2017)
Generating diverse questions using CVAE. (ICCV, 2015)

关注点

VAE
应用领域

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

binqiang2wang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。