Information Bottleneck信息瓶颈理论

最新推荐文章于 2024-12-12 20:53:02 发布

Rainylt

最新推荐文章于 2024-12-12 20:53:02 发布

阅读量8.7k

点赞数 10

分类专栏： XAI 文章标签：决策树机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lt1103725556/article/details/122096242

版权

XAI 专栏收录该内容

6 篇文章

订阅专栏

可以理解为一个损失函数
信息瓶颈理论把神经网络理解为一个编码器和一个解码器，编码器将输入x编码成Z，解码器将Z解码成输出y
而信息瓶颈理论的目标则是
在这里插入图片描述
$R_{IB}(\theta)$ 就是信息瓶颈， $\theta$ 是网络的参数，也是要优化的东西
$I(Z,Y;\theta)$ 就是输出Y和中间feature Z的互信息
$I(Z,X;\theta)$ 是输入X和中间feature Z的互信息
互信息参考互信息的定义
在决策树的C4.5算法中又被叫做信息增益
信息瓶颈理论的本质就是：最大化Z和Y的互信息，尽量减少X和Z的互信息

互信息也可以简单理解成互相包含的信息。
按照这种理解，减少X和Z的互信息，同时增大Z和Y的互信息，实际上是希望Z中尽量减少X的与Y不相关的信息，保留X的和Y最相关的那部分信息。

通过公式推导，可以得到 $R_{IB}(\theta)$ 的下界L，即 $R_{IB}(\theta)》L$ ，最大化IB相当于最大化L，取L的相反数为 $J_{IB}$ ，即最大化IB相当于最小化 $J_{IB}$ ，因此，可以把 $J_{IB}$ 作为模型的损失函数：
在这里插入图片描述

上式中， $q(y_n|z)$ 即为模型的decoder, $p(z|x_n)$ 即为模型的encoder， $∣ ∣$ 是和的意思，即求这两者的KL散度

总结:
IB理论把深度学习阶段分为两部分，前一段时间尽量增加中间feature和Y的互信息，后一段时间尽量压缩X和中间feature的互信息，使得中间feature包含X最精华的信息。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。