此篇博客为对赵悦著的《概率图模型学习理论及其应用》学习笔记。
1.熵
熵是对随机变量的不确定性的度量,随机变量X的熵越大,说明它的不确定性也就越大。
2.联合熵、条件熵、互信息
联合熵:借助联合概率分布对熵的自然推广。
条件熵:借助条件概率分布对熵的延伸。
条件熵H(X|Y=y)度量的是已知Y=y后,X的不确定性。
链规则:H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
互信息:在观测到Y之前,X的不确定性是H(X),通过观测Y,期望X的不确定性会变为H(X|Y),那么I(X;Y)=H(X)-H(X|Y)就是对Y包含多少X的信息的一个度量,称为Y关于X的信息。可以证明,I(X;Y)=I(Y;X),因此它又称为X和Y之间的互信息。
条件互信息:I(X;Y|Z)=H(X|Z)-H(X|Z,Y)称为给定Z时,Y关于X的信息。易证I(X;Y|Z)=I(Y;X|Z),于是I(X;Y|Z)也称为给定Z时,X和Y之间的条件互信息。