在决策树算法中,看到信息增益的概念,因此需要了解信息熵。
谈到信息熵,必须了解上一个概念,信息量。
信息量
I(x)= -log2(p(x))
信息量为一个确定的事情所包含的信息量,例如这个西瓜是甜的,今天天气很好,针对的事情是确定的,例如我有一个特异功能,就是预知未来,现在面前有一个苹果,最开始我不知道他是不是甜的,只知道它是甜的的概率是50%,之后我通过预知能力确认了这个苹果是甜的,那么我的预知能力带给我的信息量就是I(x)= -log2(0.5)=log2(2)=1 bit ,而越小的概率的事件,预知它带来的信息量就越大,所以有些电视剧中占卜小概率事件的时候常常会吐血身亡,就是承受不了这件事带来的信息量!
信息熵
公式不会编辑,从其他文章截图过来
信息熵则是对于未确定的事情来讲,未确定的事情便意味具有多种可能或者说多种类别,最少便是两种类别,苹果的甜或者不甜,便是二类问题。
信息熵具有两条关键性质:
1、类别越多,信息熵越大,均匀来讲,十个类别的事情大于两个类别事情。
2、类别个数相同时,越均匀,信息熵越大。
举例来讲:
苹果编号 大小 形状 颜色 甜不甜
1 大 圆 红 甜
2 大 圆 青 不甜
3 小 圆 青 甜