决策树(Decision Tree)

 决策树的生成过程主要分为:特征选择、决策树生成、剪枝(预防过拟合)等。

特征选择的参数依据主要有信息增益、增益率、基尼指数等,来度量数据的纯度。

信息增益:

熵是随机变量不确定性的度量单位,取值越大,不确定性越大,数据纯度越低,从样本数据中随机抽取二个样本,其标签不同的概率越大。信息增益的计算方式为 “ 熵 - 条件熵”,反映为在一个条件下,信息不确定性减少的程度,数值越大越好,即为:

                                                      Gain(D,a) = Ent(D) - \sum \frac{|D^{v}|}{|D|}Ent(D^{_{v}}) 

以下为17条训练样本数据:

色泽    根蒂    敲声    纹理    脐部    触感    好瓜
青绿    蜷缩    浊响    清晰    凹陷    硬滑    是
乌黑    蜷缩    沉闷    清晰    凹陷    硬滑    是
乌黑    蜷缩    浊响    清晰    凹陷    硬滑    是
青绿    蜷缩    沉闷    清晰    凹陷    硬滑    是
浅白    蜷缩    浊响    清晰    凹陷    硬滑    是
青绿    稍蜷    浊响    清晰    稍凹    软粘    是
乌黑    稍蜷    浊响    稍糊    稍凹    软粘    是
乌黑    稍蜷    浊响    清晰    稍凹    硬滑    是
乌黑    稍蜷    沉闷    稍糊    稍凹    硬滑    否
青绿    硬挺    清脆    清晰    平坦    软粘    否
浅白    硬挺    清脆    模糊    平坦    硬滑    否
浅白    蜷缩    浊响    模糊    平坦    软粘    否
青绿    稍蜷    浊响    稍糊    凹陷    硬滑    否
浅白    稍蜷    沉闷    稍糊    凹陷    硬滑    否
乌黑    稍蜷    浊响    清晰    稍凹    软粘    否
浅白    蜷缩    浊响    模糊    平坦    硬滑    否
青绿    蜷缩    沉闷    稍糊    稍凹    硬滑    否

当选择“色泽”后,

Ent(D)= -(\frac{8}{17}log_{2}\frac{8}{17} + \frac{9}{17}log_{2}\frac{9}{17}) = 0.998

Ent(green) = -(\frac{3}{6}log_{2}\frac{3}{6} + \frac{3}{6}log_{2}\frac{3}{6}) = 1.000

Ent(black) = -(\frac{4}{6}log_{2}\frac{4}{6} + \frac{2}{6}log_{2}\frac{2}{6}) = 0.918

Ent(white) = -(\frac{1}{5}log_{2}\frac{1}{5} + \frac{4}{5}log_{2}\frac{4}{5}) = 0.722

Gain(D,color) = 0.998-(\frac{6}{17} * 1.000 + \frac{6}{17}* 0.918 + \frac{5}{17}* 0.722) = 0.109

增益率:

信息增益准则对可取值数目较多的属性有所偏好,增益率准则对可取值数目较少的属性有所偏好。

基尼指数:

 基尼指数原本是指在全部居民收入中,用于进行不平均分配的那部分收入所占的比例,0值代表剧名收入的绝对平均,正常值介于0~1之间。

Gini(D,a) = \sum \frac{|D^{v}|}{|D|}Gini(D^{_{v}})

Gini(D^{_{v}}) = 1 - \sum p^{_{k}}

以上述训练样本为例,先衡量属性“色泽”:

Gini(green) = 1 - (\frac{3}{6})^{^{2}} - (\frac{3}{6})^{^{2}}

Gini(black) = 1 - (\frac{2}{6})^{2}- (\frac{4}{6})^{2}

Gini(white) = 1 - (\frac{1}{5})^{2} - (\frac{1}{5})^{2}

Gini(D,color) = \frac{6}{17}Gini(green) + \frac{6}{17}Gini(black) + \frac{5}{17}Gini(white)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值