决策树

模型

用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点。
在这里插入图片描述
我们需要的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。
递归地选择最优特征:开始,构建根节点,选择一个最优特征。按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。不断构建叶节点和新的最优特征,对其进行分割。直至所有训练数据子集被基本正确分类,或者没有合适的特征为止。这一过程结束后,生成的树可能会发生过拟合现象,需对其自下而上进行剪枝,将树变得更简单,从而增强泛化能力。如果特征数量很多,也可以在开始时,对特征进行选择,只留下对训练数据有足够分类能力的特征。

特征选择的准则为,信息增益或信息增益比。
首先介绍一下熵的概念。
(entropy):表示随机变量不确定性的度量,熵越大,随机变量的不确定性就越大。
H ( X ) = − ∑ P i l o g P i H(X)=-\sum{P_i}logP_i H(X)=PilogPi
条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性。
H ( Y ∣ X ) = ∑ P i H ( Y ∣ X = x i ) H(Y|X)=\sum{P_iH(Y|X=x_i)} H(YX)=PiH(YX=xi)
P i = P ( X = x i ) P_i=P(X=x_i) Pi=P(X=xi)
信息增益:特征A对训练数据D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为集合D的经验熵 H ( D ) H(D) H(D)与特征A给定条件下D的经验条件熵 H ( D ∣ A ) H(D|A) H(DA)之差,即:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
显然,信息增益大的特征具有更强的分类能力。

如何计算 g ( D , A ) g(D,A) g(D,A):
(1)计算 H ( D ) H(D) H(D)
H ( D ) = − ∑ i ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ H(D)=-\sum_i{\frac{|C_k|}{|D|}}log_2\frac{|C_k|}{|D|} H(D)=iDCklog2DCk
(2)计算 H ( D ∣ A ) H(D|A) H(DA):
H ( D ∣ A ) = ∑ i ∣ D i ∣ ∣ D ∣ H ( D i ) = − ∑ i ∣ D i ∣ ∣ D ∣ ∑ k ∣ D i k ∣ ∣ D i ∣ l o g 2 ∣ D i k ∣ ∣ D i ∣ H(D|A)=\sum_i{\frac{|D_i|}{|D|}H(D_i)}=-\sum_i{\frac{|D_i|}{|D|}\sum_k\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}} H(DA)=iDDiH(Di)=iDDikDiDiklog2DiDik
(3)计算 g ( D , A ) g(D,A) g(D,A):
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
其中 ∣ D ∣ |D| D是样本个数, ∣ C k ∣ |C_k| Ck是属于类 C k C_k Ck的样本个数,根据特征划分样本 D i D_i Di ∣ D i k ∣ |D_{ik}| Dik是子集 D i D_i Di中属于类 C k C_k Ck的样本个数。
信息增益比:以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D,A)=\frac{g(D,A)}{H_A(D)} gR(D,A)=HA(D)g(D,A)
H A ( D ) = − ∑ i ∣ D i ∣ ∣ D ∣ l o g 2 ∣ D i ∣ ∣ D ∣ H_A(D)=-\sum_i\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|} HA(D)=iDDilog2DDi

算法

I D 3 ID_3 ID3算法

在决策树各个节点上应用信息增益准则选择特征,递归地构建决策树。
具体算法
输入:训练数据集 D D D,特征集 A A A,阈值 ϵ \epsilon ϵ
输出:决策树 T T T
step1. 若 D D D中所有实例属于同一类 C k C_k Ck,则 T T T为单节点树,并将类 C k C_k Ck作为该节点的类标记,返回

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值