从信息瓶颈理论一瞥机器学习的“大一统理论”

最新推荐文章于 2024-08-20 21:42:41 发布

PaperWeekly

最新推荐文章于 2024-08-20 21:42:41 发布

阅读量928

点赞数 2

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/85821686

版权

本文探讨了信息瓶颈理论在机器学习中的应用，指出所有学习方法都涉及输入到输出的转换、信息过滤和损失。作者通过信息熵和信息瓶颈方法，解释了模型如何通过减少无关信息和最大化有用信息来提高泛化能力。信息瓶颈方法可以帮助减少过拟合，通过压缩特征和噪声引入来优化模型。最后，作者提出人脑的学习机制可能为机器学习的改进提供启示。

摘要由CSDN通过智能技术生成

640

作者丨哈啾路亚

单位丨顺丰科技

研究方向丨NLP，神经网络

个人主页丨http://st-time.space

序言

所有机器学习的原理，本质上都是对同一段信息在不同空间内的转换、过滤、重新表征，最终解码出一段可读信息。为了让最终信息可读，我们需要给最终输出的每一个 bit 赋予意义。如果是监督学习，则需要定义一个度量来描述输出信息与真实信息的距离。

列举常见的传统机器学习，我们可以发现大多数监督学习都遵循着这一机制。

SVM 使用内核机制重新定义了两个向量的内积，经过 centering 这样一个定义原点的操作之后，可以很快看出内核机制实际上重新定义了两个样本间的欧式距离。

而任意两点间的欧式距离被改变，则意味着坐标系的转换，并且转换过后的新坐标系基本上不再是直角坐标系了，很可能是一个更高或是更低维度流型上的曲线坐标系。这时优化度量 margin loss 再在新坐标系上尝试分割出正负样本的 support vector 的最大间隔，找到线性超平面即可。

所有回归，包括线性回归、回归树，以及各种 boosting tree，其坐标转换部分也非常明显，从 N 维输入到 1 维输出的转换（不管线性还是非线性），之后接一个优化度量（KL 距离既交叉熵、最小二乘、triplet loss，etc.）。

贝叶斯流派的最终优化目标：logP(x)，其本质还是减少 640?wx_fmt=png ，即增加预测分布与目标分布的互信息。其特征空间的转换的方法，就比较五花八门了，这里不细分析。

那么，除了输入与输出的表征方法，以及优化度量的选择之外，是否在各种机器学习包括深度学习方法内，通用的一些规则呢？就如同牛顿三大定律一样，足以解释所有经典力学的公式。

从信息瓶颈方法出发，接下来会尝试解释一系列深度学习中出现的知识，并稍作延伸与传统学习的知识点进行类比，去探索机器学习的最核心思路。

何为信息

以一个二值编码的 10 维向量为例，其排列组合个数 2^10=1024，根据香农熵的定义，一个 10 维 binary 向量的最大可承载信息量是 log(1024) = 10 。

同样是 10 维，假如不是 binary，而是任意连续变量，那么有两种方法可以用来估算连续变量的熵：分箱法以及基于 knn 的估算，后者本质上是一种不均匀的分箱法，所以就拿分箱法举例，假如同样是 0-1 区间被分成 20 个区间，那么该 10 维向量的最大可承载信息量就是 640?wx_fmt=png 。

一个分布 X，如果满足 10 维随机均匀分布，那么其混乱度最大，能够达到最大可承载信息。实际上无论是任何分布，只要出现更粗粒度的离散化操作，其熵 H(X) 必然会不可逆地减少，出现信息损失。

我们通常定义下的熵是微分熵，与香农熵的关系仅相差了一项与分箱间隔 δx 相关的一项。这项可以被当作常量，比如 float 数据类型的 epsilon error，所以后面的熵统一以 H 代替，不指明是香农还是微分熵了。

640?wx_fmt=png

输入分布 X 内包含的所有信息，我们写作 H(X) ，然而我需要抽取的信号一般要小很多，这样才方便解读。我们的优化目标希望预测分布 640?wx_fmt=png 与目标分布 Y 的距离（KL 或 Eucledian）越小越好。目标与输入的互信息 I(X,Y) 是有用的，而其他信息 H(X|Y) 以及 H(Y|X) 是无用的，因为我们无法解读它们。