决策树学习之信息增益
信息增益的用处
信息增益(information gain),描述的是一个特征能够为整个系统带来多少信息量(熵,entropy)
信息增益用于特征选择,对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。
如果一个特征能够为系统带来最大的信息量,则该特征最重要,将会被选作划分数据集的特征
信息增益与熵
熵(entropy)
信息论中的熵的计算公式如下:
H(X)
信息增益(information gain),描述的是一个特征能够为整个系统带来多少信息量(熵,entropy)
信息增益用于特征选择,对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。
如果一个特征能够为系统带来最大的信息量,则该特征最重要,将会被选作划分数据集的特征
信息论中的熵的计算公式如下: