1、公式4.1注解
熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
假定当前样本集合D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , . . . , ∣ y ∣ ) p_k(k =1,2,...,|y|) pk(k=1,2,...,∣y∣),则 D D D的信息熵为:
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k} Ent(D)=−∑k=1∣y∣pklog2pk
其中,当样本 D D D中 ∣ y ∣ |y| ∣y∣类样本均匀分布时,这时信息熵最大,其值为
E n t ( D ) = − ∑ k = 1 ∣ y ∣ 1 ∣ y ∣ l o g 2 1 ∣ y ∣ = ∑ k = 1 ∣ y ∣ 1 ∣ y ∣ l o g 2 ∣ y ∣ = l o g 2 ∣ y ∣ Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|} Ent(D)=−∑k=1∣y∣∣y∣1log2∣y∣1=∑k=1∣y∣∣y∣1log2∣y∣=log2∣y∣
此时样本D的纯度越小;
相反,假设样本 D D D中只有一类样本,此时信息熵最小,其值为
E n
《西瓜书》决策树部分公式推导
最新推荐文章于 2022-04-07 03:16:54 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)