从变分编码、信息瓶颈到正态分布:论遗忘的重要性

640


作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP,神经网络

个人主页丨kexue.fm


这是一篇“散文”,我们来谈一下有着千丝万缕联系的三个东西:变分自编码器信息瓶颈正态分布


众所周知,变分自编码器是一个很经典的生成模型,但实际上它有着超越生成模型的含义;而对于信息瓶颈,大家也许相对陌生一些,然而事实上信息瓶颈在去年也热闹了一阵子;至于正态分布,那就不用说了,它几乎跟所有机器学习领域都有或多或少的联系。


那么,当它们三个碰撞在一块时,又有什么样的故事可说呢?它们跟“遗忘”又有什么关系呢?


变分自编码器


笔者曾经写过若干篇介绍 VAE 的文章。下面简单回顾一下。



理论形式回顾


简单来说,VAE 的优化目标是:


640


其中 q(z) 是标准正态分布,p(z|x),q(x|z) 是条件正态分布,分别对应编码器、解码器。具体细节可以参考再谈变分自编码器VAE:从贝叶斯观点出发


这个目标最终可以简化为:


640


显然,它可以分开来看:640这一项相当于普通的自编码器损失(加上了重参数),640是后验分布与先验分布的 KL 散度。第一项是希望重构损失越小越好,也就是希望中间的隐变量 z 能尽可能保留更多的信息,第二项是要隐变量空间跟正态分布对齐,意思是希望隐变量的分布更加规整一些。


与自编码器的比较


所以,相比普通的自编码器,VAE 的改动就是: 


1. 引入了均值和方差的概念,加入了重参数操作;

 

2. 加入了 KL 散度为额外的损失函数。


信息瓶颈


自认为本人介绍 VAE 的信息已经够多了,因此不再赘述,马上转到信息瓶颈(Information Bottleneck,IB)的介绍。 


揭开DL的黑箱?


去年九月份有一场关于深度学习与信息瓶颈的演讲,声称能解开深度学习(DL)的黑箱,然后大牛 Hinton 听后评价“这太有趣了,我需要再看上 10000 遍...”(参考揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」),然后信息瓶颈就热闹起来了。


  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值