从变分编码、信息瓶颈到正态分布：论遗忘的重要性

最新推荐文章于 2024-12-12 20:53:02 发布

PaperWeekly

最新推荐文章于 2024-12-12 20:53:02 发布

阅读量1.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/84782136

版权

本文探讨了变分自编码器、信息瓶颈和正态分布之间的联系，并阐述了它们在遗忘过程中的作用。变分自编码器通过引入均值和方差以及KL散度，使隐变量分布更接近标准正态分布，从而实现特征解耦。信息瓶颈理论指出，通过限制信息流，模型可以提取出最关键的信息，提高泛化性能。正态分布的线性插值特性在生成模型和有监督学习中具有重要意义，有助于模型处理未见过的数据。遗忘在深度学习和生物学中都起着关键作用，通过减少冗余信息，保留关键特征，实现高效学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

这是一篇“散文”，我们来谈一下有着千丝万缕联系的三个东西：变分自编码器、信息瓶颈、正态分布。

众所周知，变分自编码器是一个很经典的生成模型，但实际上它有着超越生成模型的含义；而对于信息瓶颈，大家也许相对陌生一些，然而事实上信息瓶颈在去年也热闹了一阵子；至于正态分布，那就不用说了，它几乎跟所有机器学习领域都有或多或少的联系。

那么，当它们三个碰撞在一块时，又有什么样的故事可说呢？它们跟“遗忘”又有什么关系呢？

变分自编码器

笔者曾经写过若干篇介绍 VAE 的文章。下面简单回顾一下。

理论形式回顾

简单来说，VAE 的优化目标是：

640

其中 q(z) 是标准正态分布，p(z|x),q(x|z) 是条件正态分布，分别对应编码器、解码器。具体细节可以参考再谈变分自编码器VAE：从贝叶斯观点出发。

这个目标最终可以简化为：

640

显然，它可以分开来看： 640 这一项相当于普通的自编码器损失（加上了重参数）， 640 是后验分布与先验分布的 KL 散度。第一项是希望重构损失越小越好，也就是希望中间的隐变量 z 能尽可能保留更多的信息，第二项是要隐变量空间跟正态分布对齐，意思是希望隐变量的分布更加规整一些。

与自编码器的比较

所以，相比普通的自编码器，VAE 的改动就是：

1. 引入了均值和方差的概念，加入了重参数操作；

2. 加入了 KL 散度为额外的损失函数。

信息瓶颈

自认为本人介绍 VAE 的信息已经够多了，因此不再赘述，马上转到信息瓶颈（Information Bottleneck，IB）的介绍。

揭开DL的黑箱？

去年九月份有一场关于深度学习与信息瓶颈的演讲，声称能解开深度学习（DL）的黑箱，然后大牛 Hinton 听后评价“这太有趣了，我需要再看上 10000 遍...”（参考揭开深度学习黑箱：希伯来大学计算机科学教授提出「信息瓶颈」），然后信息瓶颈就热闹起来了。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。