这篇文章来源于本人的知乎回答
作者:陈彪
链接:https://www.zhihu.com/question/22928442/answer/117189907
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
最近正好在学决策树,信息增益和信息增益率确实是初学阶段很纠结的问题。要解决题主的疑惑,必须先分析Info-Gain(信息增益)和Gain-ratio(信息增益率)的关系与差异。
从熵(Entropy)开始说起,熵最初是一个物理学概念,后来在数学中用来描述“一个系统的混乱程度”,因此一个系统的信息熵越高就越无序,信息熵越低就越有序, 信息熵越高,使其有序所要消耗的信息量就越大。
从熵(Entropy)开始说起,熵最初是一个物理学概念,后来在数学中用来描述“一个系统的混乱程度”,因此一个系统的信息熵越高就越无序,信息熵越低就越有序, 信息熵越高,使其有序所要消耗的信息量就越大。
我们的目的就是将系统变得有序并找出 确定的信息,假设变量 ,其中每个元素对应的概率(比例)为 ,则对应熵的计算公式如下:
而信息增益(Info-Gain)指的就是熵的减少量: