好不容易理解了信息熵的概念后,又发现还有其他各种熵,经常把人绕晕,比如决策树模型中要计算信息增益(其实就是互信息),最大熵模型中要计算条件熵,下面我们就来用5分钟理解下互信息,条件熵,联合熵。先看他们之间的关系。
上图中两个完整的圆圈,分别表示X的信息熵H(X),和Y的信息熵H(Y),两个圆有一部分是重叠的,重叠部分用C表示,A和B表示的是完整圆去除了重叠区域C的部分。
H(X)=A+C, 是图中左边完整的圆圈区域,表示的是随机事件X的信息熵
H(Y)=B+C, 是图中右边完整的圆圈区域,表示的是随机事件Y的信息熵
I(X,Y)=C,是图中两圆重叠的C区域,表示的是X和Y的互信息。
互信息的大小衡量了X事件和Y事件的相关程度,当两件事毫无关联,则互信息为0。比如在5分钟理解贝叶斯公式里有个例子,老王是否在办公室和老张是否在办公室这两个随机事件,如果老王和老张是完全没有关系的人,在两个不同公司上班,两个公司可能在不同国家,老张和老王从事的是不同的职业或岗位。那老王是否在办公室和老张是否在办公室就相关程度为0,用图表示,2个圆是不相交的。反之,老王和老张是同一家公司从事着需要密切配合的工作,老王在办公室的那天,老张必然要在办公室,老张在办公室时,老王也必然在办公室,那两件事就是相关程度最高。两个圆就是重合的。
H(X|Y)=A,是图中左边浅蓝色区域,H(Y|X)=B,是图中绿色的区域。这表示的是条件熵。
为了理解条件熵仍然以5分钟理解贝叶斯公式中的老张和老王为例,老张和老王是同事,老王在办公室的先验概率是3/7,因为一周有三天在办公室,老张在办公室的先验概率是2/7,因为一周有两天在办公室。因为他们两人有一定的相关度,一周中总有一天两个是都会在办公室。当知道老王在或者不在办公室的条件下,再判断老张是否在办公室的概率叫条件概率,或后验概率,就是已经知道一些经验知识后判断这件事发生的概率,由于知道了相关的知识,事件发生不确定程度减少了(也就是确定性就增加了),那这个熵(实际上就是条件熵)也就减少了。因为信息熵衡量的是事件的不确定程度(参考5分钟理解信息熵一文)。减少的程度就是代表两件事情的相关程度的互信息。总结成公式就是:条件熵H(X|Y)=信息熵H(X)-互信息I(X,Y)
联合熵H(X,Y)=A+C+B,在图中是三片区域加起来所表示的部分。