决策树的特征选择之1:香农熵、基尼指数、误分类误差

本文深入探讨决策树的特征选择,重点关注香农熵、基尼指数和误分类误差这三种不纯度度量。通过公式解析和代码实现,阐述它们如何衡量分类节点的纯度,以及在不同类分布情况下的表现。在二分类问题中,三种方法在数据均衡时达到最大值,纯类别时达到最小值,可用于指导最优划分属性的选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征选择是决策树学习的重要内容,本文讨论的特征指标是香农熵、基尼指数和误分类误差。

不纯度度量

决策树学习的关键在如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别, 即结点的 “纯度”(purity)越来越高。在分类树中,划分的优劣用不纯度度量(impurity-measure)定量分析。
对于结点m,令Nm为到达结点m的训练实例数,对于根结点,Nm为N。Nm个实例中有Nmi个属于Ci类,而 ∑ \sum Nmi=Nm. 当一个实例到达了结点m则它属于Ci类的概率估计为:

熵函数(香农熵)

在二分类问题中,如果对于所有的i,pmi为0或1:当到达结点m时,所有实例都不属于Ci类,则pmi为0。反之,如果所有实例都属于Ci类,则pmi为1。如果此时划分是纯的,则我们不需要再进一步划分,并可以添加一个叶结点,用pmi为1的类标记。
我们可以将任意结点的类分布记作(p0,p1),其中p1=1-p0。选择最佳划分的度量通常是根据划分后叶结点不纯性的程度。不纯度越低,类分布就越倾斜。例如,类分布为(0,1)的结点具有零不纯性,而均衡分布的(0.5,0.5)的结点具有最高的不纯性。一种度量不纯性的函数是熵函数(entropy):

若p=0,则

在信息论与概率统计中,熵是表示随机变量不确定性的度量。这里我们使用的熵,也叫作香农熵,这个名字来源于信息论之父 克劳德·香农。
为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值(数学期望),即上述公式。对于二分类问题,如果p1=1而p2=0,则所有的实例都属于Ci类,熵为0。如果p1=p2=0.5,熵为1。

但是,熵并非是唯一可能的度量。对于二分类问题,其中 p1=p,p2=1-p,函数 ϕ \phi ϕ(p,1-p)是非负函数,度量划分的不纯度,如果满足如下性质:
对于任意 p ∈ \in

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值