Deep Learning and the Information Bottleneck Principle 深度学习与信息瓶颈原理

最新推荐文章于 2024-05-26 09:35:44 发布

Kenny_SI

最新推荐文章于 2024-05-26 09:35:44 发布

阅读量2.2k

点赞数 9

分类专栏：可解释性文章标签：深度学习神经网络机器学习

原文链接：https://ieeexplore.ieee.org/abstract/document/7133169/

版权

可解释性专栏收录该内容

20 篇文章 6 订阅

订阅专栏

本文从信息瓶颈理论出发，探讨深度神经网络（DNNs）的性能和理论理解。作者证明DNN可以量化为层与输入输出变量间的互信息，并提出DNN的最优信息论界限和有限样本推广界限。分析指出，DNN的分层结构与信息瓶颈的相变相关，揭示了网络结构与信息压缩之间的联系，为优化深度学习算法提供了新的理论基础和设计原则。

摘要由CSDN通过智能技术生成

Deep Learning and the Information Bottleneck Principle 深度学习与信息瓶颈原理

摘要

从信息瓶颈(IB)原理的理论框架出发，对深度神经网络(DNNs)进行了分析。我们首先证明了任何DNN都可以由层与输入输出变量之间的互信息来量化。利用这种表示，我们可以计算DNN的最优信息论界限，并得到有限样本推广界限。更接近理论极限的优势既可以通过泛化界限来量化，也可以通过网络的简单性来量化。我们认为，无论是最优体系结构、层数还是每层的特征/连接，都与信息瓶颈权衡的分岔点有关，即输入层相对于输出层的相对压缩。分层网络处的分层表示自然对应于沿着信息曲线的结构相变。我们相信这种新的洞察力可以产生新的最优界和深度学习算法。

1 Introduction

各种形式的深度神经网络(DNNs)和深度学习(DL)算法已经成为大多数有监督学习任务中最成功的机器学习方法。它们的性能目前超过了大多数竞争对手的算法，DL在真实数据挑战方面赢得了顶级机器学习比赛[1]、[2]、[3]。然而，对深度学习的理论理解仍然不尽如人意。关于深层网络的设计原则、最优体系结构、所需层数、样本复杂性和最佳优化算法等基本问题还没有很好的理解。

最近，Metha和Schwab[4]在一篇引人注目的论文中朝这个方向迈出了一步，这篇论文展示了变分Renormalization Group(RG)和基于（受限玻尔兹曼机）Restricted Boltzmann Machines(RBMs)的DNN之间的精确映射。这篇文章提供的一个重要见解是，随着图层越来越接近RG固定点，图层上的要素在统计上变得越来越分离。

在这项工作中，我们使用信息论的概念来表达这一重要的见解，并将深度学习的目标表述为压缩和预测之间的信息论折衷。我们首先论证了任何有监督学习的目标都是捕获并有效地表示输入变量中关于输出标签变量的相关信息。也就是说，提取关于输出的输入的近似最小充分统计。最小充分统计量的信息论解释[5]提出了这样做的一种原则性方法：找到输入变量的最大压缩映射，该映射尽可能保留关于输出变量的信息。这正是信息瓶颈(IB)方法的目标[6]。

当将这一原则应用于DNN时，会出现几个有趣的问题。首先，网络的分层结构产生中间表示的连续马尔可夫链，它们一起形成(近似)足够的统计。这与率失真理论中信息的连续提炼密切相关[7]。现在，网络中的每一层都可以通过其保留的关于输入变量、(期望的)输出变量以及网络的预测输出的信息量来量化。马尔可夫结构和数据处理不等式使我们能够检查网络隐藏层的内部表示的效率，这在其他失真/误差度量中是不可能的。它还为我们提供了压缩/预测问题的信息论极限，并从理论上量化了针对给定训练数据提出的每个DNN。此外，利用IB上已知的有限样本界，DNN的这种表示给出了一个新的理论样本界。

这种表述的另一个结果是对网络分层体系结构的可能解释，不同于文献[4]中提出的解释。神经元是非线性的(例如，Sigmoid)函数的输入点积，只能捕获其输入层的线性可分离属性。在给定输出分类的情况下，当输入层单元接近条件独立性时，线性可分性是可能的。对于数据分布和需要中间隐藏层的情况通常并非如此。我们认为，线性可分离性的破坏与IB最优曲线中的代表性相变(分叉)有关，因为两者都是由数据中的二阶相关性造成的。我们的分析为DNN模型提出了新的信息论最优性条件、样本复杂度界和设计原则。

论文的其余部分组织如下：

首先回顾了DNN的结构，它是由分层的sigmoidal神经细胞组成的输入层和输出层之间的中间表示的马尔可夫级联；
接下来，我们回顾了IB原理作为一种特殊的率失真问题，并讨论了如何在这个特殊的率失真平面上分析DNN；
在第三节中，我们描述了DNN的信息论约束，并利用IB问题的有限样本界提出了一种新的最优学习原则；
我们提出了IB结构相变和DNN的层状结构之间有趣的联系。

2 Background

A. Deep Neural Networks

DNN由多层人工神经元或简单的单元组成，以其在学习各种机器学习任务的数据的有用分层表示方面的卓越性能而闻名。虽然DNNs有许多不同的变体[9]，但这里我们考虑的是前馈网络相当一般的有监督学习设置，其中多个隐含层将网络的输入层和输出层分开(参见图1)。通常，由X表示的输入是高维变量，是诸如图像的像素的数据的低级表示，而期望的输出Y具有预测类别的显著较低的维度。这通常意味着X的大部分熵对Y的信息量不是很大，X中的相关特征分布很广，很难提取。DNN在学习提取这些特征方面取得的显著成功主要归功于对数据的顺序处理，即每个隐含层作为下一个隐含层的输入，从而允许构造更高级别的分布式表示。

在这里插入图片描述
图1.具有m个隐藏层的前馈DNN的示例，输入层X和输出层 $\hat{Y}$ 。期望的输出Y仅在训练阶段期间通过联合分布的有限样本p(X,Y)观察到，并且用于学习连续层之间的连通性矩阵。训练完成后，网络接收到一个输入X，并通过形成马尔可夫链的各层依次对其进行处理，得到预测的输出值 $\hat{Y}$ 。 $\hat{Y} ) / I ( X ; Y )$ 量化网络捕获了多少相关信息。

网络中单个单元的计算能力是有限的，通常被建模为 sigmoidal 神经元。这意味着每一层的输出是 $h_{k} = g ( W _ { k } h _ { k - 1 } + b _ { k } )$ ，其中wk是确定到Hk的输入的权重的连通性矩阵，bk是偏置项，并且 $\frac { 1 } { 1 + e x p ( - u ) }$ 是标准Sigmoid函数。在给定特定体系结构的情况下，训练网络简化为学习各层之间的权重。这通常是通过随机梯度下降方法(例如反向传播)来实现的，其目的是在给定输入X的情况下最小化期望和预测输出Y和^Y之间的一些预测误差或失真。有趣的是，其他DNN体系结构实现了各层之间的随机映射，例如基于RBM的DNN[2]，但目前还不清楚这种随机性为什么或何时可以提高性能。数据的对称性通常通过权重共享来考虑，如在卷积神经网络[10]、[3]中。

单个神经元(通常)只能对线性可分离的输入进行分类，因为它们只能在其输入空间中实现超平面, $\cdot h + b$ . 当输入条件独立时，超平面可以对数据进行最佳分类。要明白这一点，让p(x|y)表示输入x的(二元)类(Y)条件概率。贝叶斯定理告诉我们 $\frac { 1 } { 1 + e x p ( - \log \frac { p ( x | y ) } { p ( x | y ^ { \prime } ) } - \log \frac { p ( y ) } { p ( y ^ { \prime } ) } )}$
它可以被写为输入的点积的Sigmoid
$\frac { p ( x | y ) } { p ( x | y ^ { \prime } ) } = \prod _ { j = 1 } ^ { N } [ \frac { p ( x _ { j } | y ) } { p ( x _ { j } | y ^ { \prime } ) } ] ^ { n p ( x _ { j } ) } ------(1)$
Sigmoidal神经元可以通过权值 $\log \frac { p ( x _ { j } | y ) } { p ( x _ { j } | y ^ { \prime } ) }$ 和bias $\log \frac { p ( y ) } { p ( y ^ { \prime } ) }$ 精确地计算后验概率,当神经元的输入与输入层中各个特征的概率成正比时，即 $h _ { j } = n p ( x _ { j } )$ . 由于一般数据分布不能假定这种条件独立性，因此需要通过隐藏层进行表示更改，直到可以解耦输入的线性变换。

如文献[4]所述，基于RBM的DNN通过连续的RG变换在不丢失相关信息的情况下解耦，有效地实现了近似条件独立性。然而，相关的压缩在RG变换中是隐含的，不适用于更一般的DNN架构。

另一种统计解耦单元的常用方法是维度扩展，或者嵌入到非常高的维度中，就像核心机隐式地完成的那样，或者通过随机扩展来实现。尽管如此，这样的维度扩展仍然需要样本和计算成本，而且这些显然不是DNN架构。

本文提出了一种纯信息论的DNN观点，它可以量化DNN的性能，给出DNN效率的理论限制，并给出DNN泛化能力的新的有限样本复杂度界限。此外，我们的分析表明，最优DNN结构还完全取决于数据p(x,y)的联合分布的信息论分析。

B.信息瓶颈原则

信息瓶颈(IB)方法是一种信息论原理，用于提取输入随机变量的相关信息.给定它们的联合分布p(x,y)，相关信息被定义为互信息I(X;Y)，其中我们假设X和Y之间存在统计相关性.在这种情况下，Y隐含确定X中相关和不相关的特征。X的最佳表示将捕获相关特征，并通过剔除对Y的预测没有贡献的不相关部分来压缩X。

在纯统计术语中，X相对于Y的相关部分，用 $\hat{X}$ 表示，是关于Y的X的最小充分统计量。也就是说，它是X的最简单映射，它捕获了互信息I(X；Y)。因此我们假设马尔科夫链 $\rightarrow X \rightarrow \hat{X}$ 并将相互信息最小化 $\hat{X})$ 来获得最简单的统计(由于数据处理不等性(DPI)[5])，在 $\hat{X} ; Y )$ 的约束下。也就是说，寻找最优表示 $\hat{X}∈\hat{x}$ 可表示为以下拉格朗日函数的最小化
$\hat{x} | x ) ] = I ( X ; \hat{X} ) - \beta I ( \hat{X} ; Y ) --------(2)$
受制于马尔可夫链约束。正拉格朗日乘数 $\beta$ 作为表示复杂性(速率)之间的折衷参数, $\hat{X })$ ,以及保存的相关信息的数量 $I_{Y} = I ( \hat{X } ; Y)$ .对于一般分布p(x,y)，可能不存在精确的最小充分统计量，并且马尔可夫链预测不准确。如果我们用 $\hat{Y}$ 表示预测变量，则DPI意味着 $\geq I ( Y ; \hat{Y} )$ ,当且仅当 $\hat{X}$ 是一个充分的统计量时相等。

如文[6]所示，IB变分问题的最优解满足以下自洽方程：
$\hat { x } | x ) = \frac { p ( \hat { x } ) } { Z ( x ; \beta ) } exp(-\beta D [p ( y | x) | | p ( y | \hat { x } ) ])$ $\hat{ x } ) = \sum _ { x } p ( y | x ) p ( x | \hat { x } )$ $\hat { x }) = \sum _ { x } p ( x ) p ( \hat { x } | x | )$
其中 $\beta )$ 是归一化因子，也称为配分函数。

IB可以被视为具有非固定失真度量的率失真问题，该度量依赖于最优MAP，定义为 $\hat { x } ) = D [ p ( y | x ) | | p ( y | \hat { x } ) ]$ ，式中D是Kullback-Leibler散度。可以像Arimoto-Blahut算法一样迭代自洽方程，以计算最优IB折衷或速率失真函数，尽管这不是凸优化问题。

有了这种解释，预期的IB失真就是 $\hat { x } ) ] = I ( X ; Y | \hat {X} )$ 这是X和Y之间的冗余信息，即 $\hat {X}$ 未捕获的相关信息. 显然，公式2中的变分原理等同于 $\hat{L} [ p ( \hat {x} | x ) ] = I ( X ; \hat {X} ) + | B I ( X ; Y | \hat {X} )$
因为它们只有一个常数不同。此变分问题的最佳权衡由类似于曲线[11]的速率失真定义，如图2中的黑色曲线所示。参数是该曲线的负反斜率，就像速率失真函数一样。在这里插入图片描述
图2。定性信息平面，在训练数据上具有典型DNN（绿线）中层的假设路径.黑线是最优可达到的IB极限，蓝线是次优IB分叉，通过强制使用 $\hat{X}$ 的基数或保持相同的表示获得。红线对应于从有限样本训练时样本外IB失真(Y上的互信息)的上限。虽然训练失真可能非常低(绿点)，但实际失真可能高达红色界限。这就是为什么人们想要将绿色DNN层移动到更接近最优曲线的原因，以获得更低的复杂度和更好的泛化。另一个有趣的结果是，接近最佳极限需要各层之间的随机映射。

有趣的是，IB失真曲线，也称为联合分布p(x,y)的信息曲线，在临界值可能有分叉点到次优曲线(图2中的蓝色短曲线)。这些分叉对应于 $\hat{X}$ 的不同拓扑表示之间的相变，例如确定性退火聚类中的不同基数[12]，或者连续变量的维数变化[13]。这些分叉是联合分布的纯属性，与任何建模假设无关。

最理想的是，DNN应该学会用最紧凑的体系结构(即最少的层数，每层中的最小单元数)提取最有效的信息特征，或者近似最小的充分统计。

3 一种新的DNNS信息论学习理论

各层的信息特征

如图1所示，DNN中的每一层只处理来自上一层的输入，这意味着网络层形成了马尔可夫链。DPI的一个直接后果是，在一个层中丢失的关于Y的信息不能在更高层中恢复。就是说，对于任何i，j，它都认为 $\geq I ( Y ; h _ { j } ) \geq I ( Y ; h _ { i } ) \geq I ( Y ; \hat{Y}) ------------(3)$
当且仅当每一层都是其输入的充分统计时，才有可能在等式3中实现相等。通过不仅要求每一层最相关的表示，而且要求输入的最简明的表示，每一层都应该尝试最大化 $I ( Y ; h _ { i } )$ 同时尽可能最小化。

从学习理论的角度来看，为什么量 $I ( h _ { i-1 } ; h _ { i } )$ 和 $I ( Y ; h _ { i } )$ 与有效学习和推广相关，可能不能立即弄清楚。文献[8]已经证明，互信息 $\hat{X} ; Y)$ 对应于本文中的 $I ( Y ; h _ { i } )$ ，可以将分类任务中的预测误差限定在多类。在序贯多假设检验中，互信息给出了决策时间内错误概率的调和均值的一个(紧)界。

在这里，我们认为 $\hat{Y})$ 是DNN质量的自然量词，因为它精确地度量了模型在X中为Y捕获了多少预测特征。降低 $I ( h _ { i-1 } ; h _ { i } )$ 作为层的最小描述长度也有清晰的学习理论解释.

IB原理的信息失真提供了一种新的最优化度量，该度量不仅可以应用于输出层，如在用其他失真或误差度量评估DNN的性能时所做的那样，而且还可以用于评估网络的每个隐藏层或单元的最佳性。也就是说，每一层可以与一些 $\beta$ 的最优极限进行比较,
$\beta I ( Y ; h _ { i - 1 } | h _ { i } )$
其中我们定义 $h _ { 0 } = X$ 和 $\hat{Y}$ 。这个最优性标准也可以很好地解释沿着网络构建更高层次的表示。由于信息曲线上的每个点都由 $\beta$ 唯一定义，因此从低级表示转换为高级表示类似于连续递减 $\beta$ 。请注意，其他损失函数(如平方误差)不适用于评估隐藏层的最佳性，也不能考虑多层描述。

理论上的IB限制以及DPI对层间信息流施加的限制，大致说明了训练有素的网络的每一层在信息平面上的位置。输入级别显然具有最小的IB失真，并且需要最长的描述(即使在降维之后，X也是网络中最低的表示级别)。每个连续的层只会增加IB失真级别，但也会压缩其输入，希望只消除不相关的信息。图2中的绿线显示了信息平面中各层的可能路径。

B.有限样本和泛化边界

值得注意的是，IB曲线是联合分布p(x，y)的一个属性，但在实际的机器学习任务中，这种分布显然是未知的。事实上，机器学习算法，特别是DNN的训练算法，只能访问有限样本。尽管如此，在[8]中已经表明，有可能从有限样本中推广使用IB原理作为学习目标，只要表示复杂性(即^X的基数)是有限的。假设所有变量都有有限支撑度，设 $|\hat{ X} |$ .对于给定的n个样本，用 $\hat{I}$ 表示基于有限样本分布 $\hat{p}(x,y)$ 的互信息的经验估计。文[8]中证明的广义界保证了 $\hat{X} ; Y ) \leq \hat{I} ( \hat{X} ; Y ) + O ( \frac { K | y | } { \sqrt { n } } )$ 和 $\hat{X} ) \leq \hat{I} ( X ; \hat{X} ) + O ( \frac { K } { \sqrt { n } } )$

请注意，随着K的增加，这些界限会变得更差，但并不依赖于X的基数。这意味着IB最优曲线对于学习压缩表示可以被很好地估计，而对于学习复杂模型则被很差地估计。表示的复杂性不是由 $\hat{X}$ 的支持强加的基数，而是它的有效描述长度，即 $\approx 2 ^ { I ( \hat{X} ; X )}$ 。对于任意给定的样本大小n，这给出了真 $\hat{X} ; Y )$ 上连续的最坏情况上界。当将信息曲线(黑色)解释为经验曲线(即相对于 $\hat{p}(x,y)$ 而不是p(x,y)的最佳折衷)时，图2说明了这一界限。红色曲线是最坏情况的界限，它的最小值是信息曲线上的最佳点，因为它给出了表示的复杂性和准确性之间的最佳最坏情况真实折衷。用 $R ^ { * } ( n ) , D _ { I B } ^ { * } ( n ) )$ 表示这一点。请注意，经验信息曲线可能过于乐观，尤其是在其最复杂的一端。因此，与真实信息曲线上的对应点相反，该点并不是真正的信息量最大的点.

从这一分析可以清楚地看出，DNN的经验输入层本身并不能保证良好的泛化，即使它比隐含层包含更多关于目标变量Y的信息，因为它对数据的表示太复杂。因此，压缩对于泛化是必要的。换句话说，隐藏层必须压缩输入，才能达到最坏情况下的泛化误差可以容忍的程度。

这一分析还提出了一种评估网络的方法。设N是给定的DNN，用 $D_{N}$ 表示网络输出层的IB失真，即 $I(X；Y|\hat{Y})$ ，用 $R_{N}$ 表示输出层的表示复杂度，即 $I(X;\hat{Y})$ 。现在，我们可以在预测和压缩方面定义网络性能的两个衡量标准。第一个是generalization gap, $\Delta G = D _ { N } - D _ { I B } ^ { * } ( n )$
这限制了网络虽然可以捕获但没有捕获的关于Y的信息量。第二个衡量标准是complexity gap， $\Delta C = R _ { N } - R ^ { * } ( n )$
这限制了网络中不必要的复杂性。显然，没有理由相信当前的DNN训练算法会达到IB有限样本界的最佳点。然而，我们确实认为，沿网络层改进的特征检测对应于在该方向上的信息平面的改进。换句话说，当将经过训练的DNN的层放置在信息平面上时，它们应该形成类似于图2中的绿色曲线的路径。因此，希望找到新的训练算法，该算法基于IB最优条件，并且可以使DNN层更接近最优极限。

4 IB相变和线性可分性的破坏

在我们对DNN的IB分析中，最有趣的方面是它与网络体系结构的连接，即分层结构的出现和各层之间的最佳连接，这一点我们只能在这里开始讨论。

IB相变–沿着信息曲线到更简单表示的分支–和隐藏层之间的线性可分割性条件之间似乎有一种有趣的对应关系。通过对[14]、[12]中关于IB相变的团簇分裂的分岔分析，可以证明，关键的 $\beta$ 是由 $\hat{x} ( \beta ) )$ 在该关键的 $\beta$ 的二阶关联的最大特征值决定的。

另一方面，当数据的条件二阶相关性不可忽略时，线性可分性条件Eq.1被破坏。这发生在对数似然比的二阶(第一非线性项)变得重要的 $\beta$ 值，该值的条件是当前表示 $\hat{X} ( \beta )$ ，具有决定相变的相同特征值。也就是说，DNN层所需的线性可分性与IB曲线上的结构表示相变密切相关。因此，我们推测DNN层的 $\beta$ 最佳点在IB最优曲线上的分岔转变之后。当这些相变是线性独立的时，它们可以组合在单个层内，就像线性网络所做的那样(例如，在高斯IB问题[13]中)。

5 Discussion

基于信息瓶颈原理，提出了一种新的深度神经网络信息论分析方法。可以说，在给定联合分布p(x,y)的有限样本的情况下，DNN学习提取输入层X的相关特征的有效表示来预测输出标签Y。该表示可以与由信息瓶颈(或信息失真)折衷提供的变量X相对于Y的理论上最优相关压缩相比较。这是通过引入一种新的信息论观点来实现的，即在给定经验训练数据的情况下，将DNN训练看作输入变量X的连续(马尔可夫)相关压缩。DNN的预测正在激活训练的压缩分层结构以生成预测标签 $\hat{Y}$ 。对于一系列唤起输入X，最大化互信息 $I(Y,\hat{Y})$ 成为自然的DNN优化目标。DNN的这种新表示提供了几个有趣的优势：

通过在信息平面上估计各层与输入输出变量之间的互信息，可以直接使网络及其所有隐含层达到最优IB限值;
最优DNN表示的新信息论优化准则;
基于IB有限样本界的网络泛化能力决定了新的样本界;
随机DNN结构可以更接近最优理论极限;
网络结构-层的数量和结构-与IB问题中的结构相变之间似乎存在着一种联系，应该进一步探索，因为两者都与临界点上数据的二级关联的光谱特性有关。

6 参考文献

[1] Y. Bengio, A. Courville, and P. Vincent, “Representation learning: A review and new perspectives,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, pp. 1798–828, Aug. 2013.
[2] G. E. Hinton and R. R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” Science, vol. 313, no. 5786, pp. 504– 507, July 2006.
[3] A. Krizhevsky, I. Sutskever, and G. Hinton, “ImageNet classification with deep convolutional neural networks,” in Advances in Neural Information Processing Systems (NIPS), 2012, pp. 1106–1114.
[4] P. Mehta and D. J. Schwab, “An exact mapping between the variational renormalization group and deep learning,” CoRR, vol. abs/1410.3831, 2014.
[5] T. Cover and J. Thomas, Elements of information theory. Wiley New York, 1991.
[6] N. Tishby, F. C. Pereira, and W. Bialek, “The information bottleneck method,” in Proceedings of the 37-th Annual Allerton Conference on Communication, Control and Computing, 1999, pp. 368–377.
[7] W. H. R. Equitz and T. M. Cover, “Successive refinement of information,” IEEE Transactions on Information Theory, vol. 37, no. 2, pp.
269–275, 1991.
[8] O. Shamir, S. Sabato, and N. Tishby, “Learning and generalization with the information bottleneck,” Theor. Comput. Sci., vol. 411, no.
29-30, pp. 2696–2711, 2010.
[9] Y. Bengio, “Learning Deep Architectures for AI,” Foundations and Trends in Machine Learning, vol. 2, no. 1, pp. 1–127, 2009.
[10] Y. LeCun and Y. Bengio, “Convolutional networks for images, speech, and time series,” The handbook of brain theory and neural networks, vol. 3361, p. 310, 1995.
[11] R. Gilad-Bachrach, A. Navot, and N. Tishby, “An information theoretic tradeoff between complexity and accuracy,” in Proceedings of the COLT, 2003.
[12] K. Rose, “Deterministic annealing for clustering, compression, classification, regression, and related optimization problems,” in Proceedings of the IEEE, 1998, pp. 2210–2239.
[13] G. Chechik, A. Globerson, N. Tishby, and Y. Weiss, “Information bottleneck for gaussian variables,” Journal of Machine Learning Research, vol. 6, pp. 165–188, 2005.
[14] K. Rose, E. Gurewitz, and G. C. Fox, “Statistical mechanics and phase transitions in clustering,” Phys. Rev. Lett., vol. 65, pp. 945–948, 1990.