机器学习中的信息论

自信息量

  一个事件的自信息量是该事件发生概率的负对数,事件发生的概率越大,自信息量越少,反之自信息量越多。也称不确定性函数,具有可加性。定义自信息量I(x)

I(x)=log(1p(x))

香农信息熵

  熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。
  信息熵用来对信息进行量化度量,用来描述信源的不确定度。信息中排除了冗余后的平均信息量称为信息熵
  信息熵是自信息量的期望,信息熵一般用来描述一个信息源,这个信息源可能有多个随机事件,所有随机事件发生的概率和为1.这个信息源的熵就是信息源产生的随机事件的自信息量的期望。信息熵越大系统越混乱,不确定性越大。定义信息熵H,单位为比特:

H=E[logpi]=i=1npilogpi

联合熵

  两个变量XY的联合信息熵定义为:

H(X,Y)=xyP(x,y)log2P(x,y)

  其中xyXY的特定值,相应的P(x,y)是这些值一起出现的联合概率,若P(x,y)=0,则P(x,y)log2[P(x,y)]定义为0.
  同样的形式可以扩展至两个以上的变量的情况。

性质

  大于每个独立的熵,一集变量的联合熵大于或等于这集变量中任一个变量的独立熵。

H(X,Y)max[H(X),H(Y)]

少于独立熵的和,该不等式有且只有在XY均为统计独立时相等。
H(X,Y)H(X)+H(Y)

和其他熵测量手段的关系

条件熵:

H(X|Y)=H(X,Y)H(Y)

互信息:
I(X;Y)=H(X)+H(Y)H(X,Y)

交叉熵

  用来度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布p,q,其中p为真实分布,q为非真实分布。假如按照真实分布p来衡量识别一个样本所需要的编码长度的期望为:

H(p)=ip(i)log(1p(i))

  但是用非真实分布q来表示来自真实分布p的平均编码长度,则是:
H(p,q)=ip(i)log(1q(i))

  此时将H(p,q)称为交叉熵,交叉熵在机器学习中经常用作损失函数,用来衡量真实标记分布于模型预测分布的相似度。交叉熵作为损失函数的好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

相对熵

  相对熵又称为KL散度,信息散度。是描述两个概率分布PQ差异的一种方法。它是非对称的即D(P∣∣Q)D(Q∣∣P)。在信息论中,D(P∣∣Q)表示当用概率分布Q来拟合真实分布P时产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。
  设P(x)Q(x)X取值的两个离散概率分布,则PQ的相对熵为:

D(P∣∣Q)=(P(x)logP(x)Q(x))

对于连续的随机变量,定义为:
D(P∣∣Q)=P(x)logP(x)Q(x)d(x)

相对熵是两个概率分布PQ差别的非对称性的度量。

互信息

  互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
  设两个随机变量(X,Y)的联合分布为p(x,y),边界分布分别为p(x)p(y),互信息I(X,Y)是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵,即:

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)

阅读更多

没有更多推荐了,返回首页