一、 信息增益
关于信息增益,写得非常好非常通俗易懂的文章:
【结合实例】信息增益的计算_怎么计算信息增益-CSDN博客
1. 定义
信息增益是基于信息论的概念,用于度量在给定特征的情况下,数据集的不确定性减少程度。在决策树中,选择能够使得信息增益最大的特征作为划分节点。
2. 计算方法
- 计算数据集的初始信息熵(Entropy):衡量数据的不确定性程度。
- 根据每个特征的取值对数据集进行划分,计算每个划分的条件熵(Conditional Entropy)。
- 计算每个特征的信息增益,即初始信息熵与条件熵之差。 选择信息增益最大的特征作为划分节点。
信息熵
计算公式:
H ( Y ) = − ∑ i = 1 m p i log 2 ( p i ) H(Y)=-\sum_{i=1}^{m} p_{i}\log_{2}({p_{i}} ) H(Y)=−i=1∑mpilog2(pi)
条件熵
计算公式:
X给定条件下,Y的条件概率分布的熵对X的数学期望
p ( X = x i , Y = y j ) = p i j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , m p(X=x_{i},Y=y_{j}) = p_{ij}, i=1,2,...,n;j=1,2,...,m p(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,m
H ( Y ∣ X ) = ∑ x ⊂ X p ( x ) H ( Y ∣ X = x ) H(Y|X)=\sum_{x\subset X}^{} p(x)H(Y|X=x) H(Y∣X)=x⊂X∑p(x)H(Y∣X=x)
H ( Y ∣ X ) = − ∑ x ⊂ X ∑ y ⊂ Y p ( x , y ) log p ( y ∣ x ) H(Y|X)=-\sum_{x\subset X}^{} \sum_{y \subset Y}^{} p(x,y)\log p(y|x) H(Y∣X)=−x⊂X∑y⊂Y∑