你也可以通过我的独立博客 —— www.huliujia.com 获取本篇文章
信息熵
什么是信息熵
信息熵用于度量”预测随机变量Y的取值“的难度。信息熵越大说明Y的取值的不确定性越大,即预测难度越大。本文用H(Y)表示预测Y值的信息熵。
下表为两只球队的虚拟的胜、负、平历史记录,显然预测恒大比赛结果的难度要远小于绿城。因为恒大90%都是胜场,预测恒大胜就可以了。而绿城胜、平、负的概率都是三分之一,很难预测绿城的比赛结果。这里随便变量Y就是比赛结果,显然预测恒大比赛结果(即Y的取值为胜、平或者负)的信息熵要小于绿城,即不确定性小于绿城。
球队 | 胜 | 平 | 负 |
---|---|---|---|
恒大 | 90% | 5% | 5% |
绿城 | 34% | 33% | 33% |
信息熵的计算方式
信息熵有很多计算公式,不同的计算公式获得的结果也是不同的,公式如下图所示