点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。
前言
大家好,我是潜心。休整(偷懒)一星期后,我决定还是写一些关于机器学习的笔记,单纯写Python文档确实有点无聊。因为最近在看《百面机器学习》,刚看到决策树,发现把信息论的相关知识给忘了,翻了下笔记,准备分享给大家。
本文约1k字,预计阅读10分钟。
信息论
信息论主要研究的是对一个信号包含信息的多少进行量化。
基本想法:一个不太可能的事情发生了,要比一个非常可能的事情发生,能提供更多的信息。
自信息
定义一个事件 的自信息,它应满足三个性质:
非常可能的事情信息量比较少;
较不可能的事情具有更高信息量;
独立事件应具有增量的信息(如抛硬币两次正的信息量应是一次的两倍);
故有公式: , 表示一个事件发生的概率
注:log底数为e,I(x)单位为奈特;底数为2,单位是比特或香农;
信息熵
信息熵也称香农熵,是对整个概率分布中的不确定性总量进行量化。
信息熵需要满足三个性质:
单调性,概率越高,携带的信息量越低;
非负性;
累加性:多随机事件同时发生的总不确定性的量度可以表示为各事件不确定性量度的和;
累加性:
事件 同时发生,两个事件相互独立,即
,
故信息熵:
香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式:
,其中 代表独立事件的集合
其中 为常数,当 时,即为信息熵公式。
熵的取值范围为: , 为取值的种类
物理意义:熵代表了随机变量的不确定性(即混乱程度)。熵越大,代表随机变量的不确定性越大。当变量可取值的种类一定时,其取每种值的概率分布越平均,其熵值越大。
例:二值随机变量的香农熵(伯努利分布熵)
随机变量 取值为{0, 1},则 的概率分布为: