信息量:
如果事情x发生,那么 p(x) 能为“事件x发生”所提供的信息量:
h(X)=−log2p(x)
也就是消除事情不确定性所需要的信息量,单位是 比特
国足取得冠军的概率是0.01 h(国足取冠)=−log20.01=4.6比特
羽毛球队取得冠军的概率是0.9 h(国羽取冠)=−log20.9=0.1比特
在信息论中,熵是接收的每条消息中包含的信息的平均量,它是不确定性的度量,越随机的信号源其熵越大
离散:
H(X)=−∑xp(xi)log2p(xi)
连续:
H(X)=−∫p(x)log2p(x)
在最优化理论中,很多算法用熵作为优化目标,Watanabe也提出过“学习就是一个熵减的过程”,算法学习的过程就是信息不确定性减小的过程。比如 bayesian 分类器,在两类样本数量严重不平衡的情况下,如果以经验公式为训练目标,那么对少数类样本的分类会有严重的错误率,而以互信息为训练目标的分类器,则能够根据样本比例自动平衡错误率。
联合熵
度量二维随机变量的不确定性
H(X,Y)=−∑i∑jp(xi,yj)log2p(xi,yj)
条件熵
H(Y|X) 表示已知 X , 求
H(Y|X)=−∑i∑jp(