本篇文章主要谈一下信息熵的直观理解。首先信息熵。可以看到函数图像如下,只需关注0-1区间(灰点坐标()0.36, 0.1598)
我们经常提到信息熵是信息量大小的度量,是不确定性的度量。
什么是信息量,当我们提到“信息量很大”这句话我们想说的是,这句话里面的信息有很多种情况,需要你仔细的分辨一下说话者到底什么意思?当我们与对方交谈的时候 问出“什么意思”这句话的时候,其实我们就是在通过进一步的询问来缩小信息量以便弄清楚对方想表达的东西。
什么是不确定性?我举个例子。比如有队伍A和队伍B比赛,需要你预测谁是赢家?这里我们假设认为A赢的概率是1/2,B也1/2。此时计算信息熵H1=1。如果我引入一个先验信息——“A队比较强”,这时A赢得概率要更大,不妨设3/4。那么B赢的概率为1/4。计算此时的信息熵H2=0.81。当我们没有引入先验信息,我们猜A队赢,这时我们心里也很忐忑,也没底。而引入了先验信息之后,我们猜A队赢,这时我们很有把握。这种直观上的感觉有多大把握,就是不确定性!如果用公式计算一下,引入先验信息之前,信息熵大,也就是不确定性很大,也就是很没有把握。我们的目的是希望信息量小一点,这样不确定性小,我们更能准确的得到想要传递的信息(人们交流的本质不就是把自己的信息传递给对方嘛,所以要明确一点 我们是希望信息量越小越好)
所以说我们可以用信息熵来衡量信息量的大小,衡量不确定性。因而产生了最大熵,信息增益等算法。
我觉得信息熵中 体现出的加权平均特性实在是太美了!
如果想进一步了解信息熵,欢迎查看我的博客TF-IDf用信息论解释。也欢迎大家一起讨论