信息增益=信息熵—条件熵
信息熵:
https://zhuanlan.zhihu.com/p/26486223
其中代表随机事件X为的概率,下面来逐步介绍信息熵的公式来源!
信息量与事件x发生的概率成负相关,,因为,一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。
概率越小,信息量越大
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——
考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即信息熵
事件越复杂,信息熵越大
这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,
出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少
(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。
条件熵:条件熵是另一个变量Y熵对X(条件)的期望。https://zhuanlan.zhihu.com/p/26551798
其实条件熵意思是按一个新的变量的每个值对原变量进行分类,比如上面这个题把嫁与不嫁按帅,不帅分成了俩类。
然后在每一个小类里面,都计算一个小熵,然后每一个小熵乘以各个类别的概率,然后求和。
我们用另一个变量对原变量分类后,原变量的不确定性就会减小了,因为新增了Y的信息,可以感受一下。不确定程度减少了多少就是信息的增益。
信息增益: https://www.zhihu.com/question/22104055
信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。
那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。
这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。
通过计算各个特征的信息增益发现,身高的信息增益最大,也就是:身高这个特征对于我们广大女生同学来说,决定嫁不嫁给自己的男朋友是很重要的。那么我就可以说,孟非哥哥,我想知道男嘉宾的一个特征是身高特征。因为它在这些特征中,身高对于我挑夫君是最重要的,信息增益是最大的,知道了这个特征,嫁与不嫁的不确定度减少的是最多的。