机器学习-决策树特征选择

决策树算法在构建树的过程中,需要选择最佳特征作为分裂点。为了衡量分裂的好坏,有几种常用的标准:信息增益基尼系数、和方差减少。它们的作用都是评估分裂后子节点的纯度,以下是详细解释:

1. 信息增益(Information Gain)

信息增益主要用于分类问题,通过熵(Entropy)的减少来衡量一个特征对分类的影响。

熵(Entropy)

熵表示系统的混乱度或不确定性。熵越大,表示样本的混乱度越大,类别分布越不确定;熵越小,系统越有序。熵的公式为:

E n t r o p y ( S ) = − ∑ i = 1 n p i log ⁡ 2 ( p i ) Entropy(S) = - \sum_{i=1}^{n} p_i \log_2(p_i) Entropy(S)=i=1npilog2(pi)

  • ( S ) 是一个数据集
  • ( p i p_i pi ) 是第 ( i i i) 类的样本所占的比例
信息增益

信息增益表示特征引入后,熵减少的量,即分裂前后的信息差。信息增益公式:

Information Gain ( S , A ) = Entropy ( S ) − ∑ v ∈ Values ( A ) ∣ S v ∣ ∣ S ∣ Entropy ( S v ) \text{Information Gain}(S, A) = \text{Entropy}(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} \text{Entropy}(S_v) Information Gain(S,A)=Entropy(S)vValues(A)SSvEntropy(Sv)

其中,( S ) 是数据集,( A ) 是特征,( S v S_v Sv ) 是特征 ( A ) 的第 ( v ) 个值对应的子集。

优点:信息增益适合于多种特征,尤其是离散型特征。

缺点:信息增益可能偏向选择取值较多的特征,造成模型复杂化。


2. 基尼系数(Gini Index)

基尼系数也常用于分类问题,用于衡量数据集的纯度。基尼系数越小,数据集的纯度越高。它用于分类和回归树(CART)算法中。

基尼系数公式:

G i n i ( S ) = 1 − ∑ i = 1 n p i 2 Gini(S) = 1 - \sum_{i=1}^{n} p_i^2 Gini(S)=1i=1npi2

其中:

  • ( S ) 是数据集
  • ( p i p_i pi ) 是第 ( i i i) 类的样本比例
基尼系数的变化:

对于某个特征 ( A ) 产生的分裂,其基尼系数的变化量为:

Δ G i n i = G i n i ( S ) − ∑ v ∈ Values ( A ) ∣ S v ∣ ∣ S ∣ G i n i ( S v ) \Delta Gini = Gini(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} Gini(S_v) ΔGini=Gini(S)vValues(A)SSvGini(Sv)

优点

  • 基尼系数计算简单,且不偏向具有较多取值的特征。
  • 更注重提升分裂后的节点纯度,通常比信息增益更适合CART算法。

缺点:和信息增益类似,无法完全避免噪声对结果的影响。


3. 方差减少(Variance Reduction)

方差减少主要用于回归问题,用于衡量一个特征对连续变量的分裂效果。目标是减少分裂后节点的方差,方差越小,意味着分裂后的子节点越纯。

方差公式:

对于回归树,数据集 ( S ) 中的方差定义为:

Variance ( S ) = 1 ∣ S ∣ ∑ i = 1 ∣ S ∣ ( y i − y ‾ ) 2 \text{Variance}(S) = \frac{1}{|S|} \sum_{i=1}^{|S|} (y_i - \overline{y})^2 Variance(S)=S1i=1S(yiy)2

其中,( y i y_i yi ) 是样本的真实值,( y ‾ \overline{y} y ) 是样本的均值。

方差减少公式:

特征 ( A ) 的方差减少量为:

Δ Variance ( S , A ) = Variance ( S ) − ∑ v ∈ Values ( A ) ∣ S v ∣ ∣ S ∣ Variance ( S v ) \Delta \text{Variance}(S, A) = \text{Variance}(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} \text{Variance}(S_v) ΔVariance(S,A)=Variance(S)vValues(A)SSvVariance(Sv)

优点

  • 方差减少适用于回归问题,帮助找到能够最小化误差的特征。

缺点:如果数据集存在异常值,方差减少可能会受到异常值的显著影响。


总结:

  • 信息增益:用于分类问题,基于熵的减少,适合离散特征。
  • 基尼系数:用于分类问题,基于纯度的提升,常用于 CART 算法。
  • 方差减少:用于回归问题,基于方差的减少,适合连续目标变量。

选择哪个标准取决于具体问题是分类还是回归。分类树常用信息增益或基尼系数,回归树通常使用方差减少。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值