设数据集D中有m个不同的类
C
1
,
C
2
,
C
3
,
.
.
.
,
C
m
C1, C2, C3, ..., Cm
C1,C2,C3,...,Cm
设 Ci,D是数据集D中Ci类的样本的集合, |D|和 |Ci,D|分别是D和 Ci,D中的样本个数
数据集D的信息熵:
Info
(
D
)
=
−
∑
i
=
1
m
p
i
log
2
p
i
\operatorname{Info}(D)=-\sum_{i=1}^{m} p_{i} \log _{2} p_{i}
Info(D)=−i=1∑mpilog2pi
其中pi是数据集D中任意样本属于类Ci的概率
决策树
最新推荐文章于 2024-04-19 10:58:56 发布