从信息瓶颈理论一瞥机器学习的“大一统理论”

本文探讨了信息瓶颈理论在机器学习中的应用,指出所有学习方法都涉及输入到输出的转换、信息过滤和损失。作者通过信息熵和信息瓶颈方法,解释了模型如何通过减少无关信息和最大化有用信息来提高泛化能力。信息瓶颈方法可以帮助减少过拟合,通过压缩特征和噪声引入来优化模型。最后,作者提出人脑的学习机制可能为机器学习的改进提供启示。
摘要由CSDN通过智能技术生成

640


作者丨哈啾路亚

单位丨顺丰科技

研究方向丨NLP,神经网络

个人主页丨http://st-time.space


序言


所有机器学习的原理,本质上都是对同一段信息在不同空间内的转换、过滤、重新表征,最终解码出一段可读信息。为了让最终信息可读,我们需要给最终输出的每一个 bit 赋予意义。如果是监督学习,则需要定义一个度量来描述输出信息与真实信息的距离。 


列举常见的传统机器学习,我们可以发现大多数监督学习都遵循着这一机制。 


SVM 使用内核机制重新定义了两个向量的内积,经过 centering 这样一个定义原点的操作之后,可以很快看出内核机制实际上重新定义了两个样本间的欧式距离。


而任意两点间的欧式距离被改变,则意味着坐标系的转换,并且转换过后的新坐标系基本上不再是直角坐标系了,很可能是一个更高或是更低维度流型上的曲线坐标系。这时优化度量 margin loss 再在新坐标系上尝试分割出正负样本的 support vector 的最大间隔,找到线性超平面即可。 


所有回归,包括线性回归、回归树,以及各种 boosting tree,其坐标转换部分也非常明显,从 N 维输入到 1 维输出的转换(不管线性还是非线性),之后接一个优化度量(KL 距离既交叉熵、最小二乘、triplet loss,etc.)。 


贝叶斯流派的最终优化目标:logP(x),其本质还是减少640?wx_fmt=png,即增加预测分布与目标分布的互信息。其特征空间的转换的方法,就比较五花八门了,这里不细分析。 


那么,除了输入与输出的表征方法,以及优化度量的选择之外,是否在各种机器学习包括深度学习方法内,通用的一些规则呢?就如同牛顿三大定律一样,足以解释所有经典力学的公式。 


从信息瓶颈方法出发,接下来会尝试解释一系列深度学习中出现的知识,并稍作延伸与传统学习的知识点进行类比,去探索机器学习的最核心思路。


何为信息 


以一个二值编码的 10 维向量为例,其排列组合个数 2^10=1024,根据香农熵的定义,一个 10 维 binary 向量的最大可承载信息量是 log(1024) = 10 。


同样是 10 维,假如不是 binary,而是任意连续变量,那么有两种方法可以用来估算连续变量的熵:分箱法以及基于 knn 的估算,后者本质上是一种不均匀的分箱法,所以就拿分箱法举例,假如同样是 0-1 区间被分成 20 个区间,那么该 10 维向量的最大可承载信息量就是640?wx_fmt=png


一个分布 X,如果满足 10 维随机均匀分布,那么其混乱度最大,能够达到最大可承载信息。实际上无论是任何分布,只要出现更粗粒度的离散化操作,其熵 H(X) 必然会不可逆地减少,出现信息损失。 


我们通常定义下的熵是微分熵,与香农熵的关系仅相差了一项与分箱间隔 δx 相关的一项。这项可以被当作常量,比如 float 数据类型的 epsilon error,所以后面的熵统一以 H 代替,不指明是香农还是微分熵了。


640?wx_fmt=png


输入分布 X 内包含的所有信息,我们写作 H(X) ,然而我需要抽取的信号640?wx_fmt=png一般要小很多,这样才方便解读。我们的优化目标希望预测分布640?wx_fmt=png与目标分布 Y 的距离(KL 或 Eucledian)越小越好。目标与输入的互信息 I(X,Y) 是有用的,而其他信息 H(X|Y) 以及 H(Y|X) 是无用的,因为我们无法解读它们。


640?wx_fmt=jpeg


训练的最终目标是我们的640?wx_fmt=png内包含的信息,从最初随机权重得到的绿色区域信息,逐渐遗忘掉 X 里与 Y 不相关的信息,同时尽量捕捉到 X 里与 Y 相关的信息。


640?wx_fmt=jpeg


增加640?wx_fmt=png的理由非常直观,因为监督学习时如果不学习目标 Y 的信息,自然无法预测出正确的结果。然而减少

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值