来自于一篇文章的收获,受益匪浅
太长不看版:
首先信息量是衡量编码一个信息需要的编码长度(这样就是更高概率出现的事件其信息量更低,这也是通信领域的实际应用,类似于什么树?记不清了,就像太阳从西方升起比太阳从东方升起会具有更大的信息量,这也符合我们的日常认知)
因此信息量比较自然的想法就是用log()函数来表示:-log(p) (很容易就可以可看出达到了出现概率大的数值小,出现概率小的数值大的目的)
信息熵的定义是什么呢。是信息量的期望值,而期望值的求法就是对于所有可能的结果将某值出现的概率与某值的乘积累加起来,这样就得到了信息熵的函数计算方法:
详细解释版
请参考这位大佬的文章,我也是从中学到的理解:
https://www.cnblogs.com/anai/p/12160754.html