作者丨苏剑林
单位丨广州火焰信息科技有限公司
研究方向丨NLP,神经网络
个人主页丨kexue.fm
这是一篇“散文”,我们来谈一下有着千丝万缕联系的三个东西:变分自编码器、信息瓶颈、正态分布。
众所周知,变分自编码器是一个很经典的生成模型,但实际上它有着超越生成模型的含义;而对于信息瓶颈,大家也许相对陌生一些,然而事实上信息瓶颈在去年也热闹了一阵子;至于正态分布,那就不用说了,它几乎跟所有机器学习领域都有或多或少的联系。
那么,当它们三个碰撞在一块时,又有什么样的故事可说呢?它们跟“遗忘”又有什么关系呢?
变分自编码器
笔者曾经写过若干篇介绍 VAE 的文章。下面简单回顾一下。
理论形式回顾
简单来说,VAE 的优化目标是:
其中 q(z) 是标准正态分布,p(z|x),q(x|z) 是条件正态分布,分别对应编码器、解码器。具体细节可以参考再谈变分自编码器VAE:从贝叶斯观点出发。
这个目标最终可以简化为:
显然,它可以分开来看:这一项相当于普通的自编码器损失(加上了重参数),是后验分布与先验分布的 KL 散度。第一项是希望重构损失越小越好,也就是希望中间的隐变量 z 能尽可能保留更多的信息,第二项是要隐变量空间跟正态分布对齐,意思是希望隐变量的分布更加规整一些。
与自编码器的比较
所以,相比普通的自编码器,VAE 的改动就是:
1. 引入了均值和方差的概念,加入了重参数操作;
2. 加入了 KL 散度为额外的损失函数。
信息瓶颈
自认为本人介绍 VAE 的信息已经够多了,因此不再赘述,马上转到信息瓶颈(Information Bottleneck,IB)的介绍。
揭开DL的黑箱?
去年九月份有一场关于深度学习与信息瓶颈的演讲,声称能解开深度学习(DL)的黑箱,然后大牛 Hinton 听后评价“这太有趣了,我需要再看上 10000 遍...”(参考揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」),然后信息瓶颈就热闹起来了。