熵
如果
X
为一个离散变量,则可以根据以下式子计算熵
其中约定 0log0=0 ,该公式定义的熵的单位为二进制位(bit)。该公式可以理解为描述一个随机变量的不确定性。熵越大,不确定性越大。
联合熵&条件熵
如果
X,Y
是一对离散型随机变量
X,Y∼p(x,y)
,则
X,Y
的联合熵
H(X,Y)
定义为
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
实际上描述的是表达一对随机变量平均所需要的信息量。
在给定 X 的情况下,随机变量
H(Y|X)=∑x∈Xp(x)H(Y|X)=−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−∑x∈X∑y∈Yp(y,x)logp(y|x)
将 H(X,Y) 展开,可得
H(X,Y)=−∑x∈X∑y∈Yp(x,y)log[p(y|x)p(x)]=−∑x∈X∑y∈Yp(x,y)[logp(y|x)+logp(x)]=−∑x∈X∑y∈Yp(x,y)logp(y|x)−∑x∈X∑y∈Yp(x,y)logp(x)=H(Y|X)+H(X)
由此可得熵的链式规则,
H(X1,X2,...,Xn)=H(X1)+H(X2|X1)+...+H(Xn|X1,...,Xn−1)
互信息
I(X,Y)=H(Y)−H(Y|X)
反映的是得到 X 的信息之后,
相对熵
相对熵也被称为Kullback-Leibler距离,即KL距离,衡量的是相同事件空间中的两个概率分布的差异的测度。其定义为
D(p(x)||q(x))=∑x∈Xp(x)logp(x)q(x),即期望D(p(x)||q(x))=Ep(logp(x)q(x))
可知当两个随机分布完全相同时,其相对熵为0,当差别增加时,其相对熵也增加。
通过KL距离的表示,互信息也可以表示为联合分布与独立性的差距,即
I(X,Y)=D(p(x,y)||p(x)p(y))
交叉熵
交叉熵是用来衡量估计模型与真实概率之间的差距。
如果一个随机变量
X∼p(x)
,
q(x)
用于近似
p(x)
的分布,那么变量
X
与模型
H(X,q)=H(X)+D(p||q)=−∑xp(x)logq(x)=EP(log1q(x))
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可