机器学习_第二篇 分类算法(3)_决策树 Decision Tree, DT

       一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果,其他每个结果则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应于一个判定测试序列。

      决策树的直观解释:将数据根据其特征分布划分到不同的区域,使得同一个区域的样本有尽可能一致的类别标签。

      每次数据划分衡量标准:

  1. 决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。
  2. 信息增益是衡量数据划分的指标

     信息增益:

  1.  信息熵:度量样本集合纯度最常用的一种指标 

     假定当前样本集合D中第 k 类样本所占的比例为Pk(k=1,2,……,|y|),则D的信息熵定义为

                                                                  Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}

     Ent(D)的值越小,则D的纯度越高

      2.  信息增益:划分属性选择指标

       假定离散属性α有V个可能的取值\left \{ \partial ^{1},\partial ^{2},\cdots ,\partial ^{V} \right \},若使用α来对样本集D进行划分,则会产生V个分支节点,其中第\vartheta个分支节点包含了D中所有在属性α上取值为\partial ^{\vartheta }的样本,标记为D^{\vartheta },计算出D^{\vartheta }的信息熵。考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重\frac{|D^{\vartheta }|}{|D|},即样本数越多的分支结点的影响越大。计算出用属性α对样本集D进行划分所获得的“信息增益”:

                                                      Gain(D,\partial )=Ent(D)-\sum_{\vartheta =1}^{V}\frac{|D^{\vartheta }|}{|D|}Ent(D^{\vartheta })

  一般而言,信息增益越大,则意味着使用属性α来进行划分所获得的“纯度提升”越大。因此,用信息增益来进行决策树的划分属性选择。

     构建决策树的实际例子:

      目标:该决策树用以学习一颗能预测没有刨开的瓜是不是好瓜?

                                                      

  1. 计算根节点(好瓜)的信息熵:包含D中的所有样例(是、否)即 |y|=2,其中正例 P1=8/17,反例 P2=9/17。根节点的信息熵为:Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}=-(\frac{8}{17}log_{2}\frac{8}{17}+\frac{9}{17}log_{2}\frac{9}{17})=0.998
  2. 计算当前每个属性的信息增益

      以属性“色泽”为例,它有3个可能的取值:{青绿、乌黑、浅白}。若使用该属性对D进行划分,则可得到3个子集,分别记为:D1{色泽=青绿},D2={色泽=乌黑},D3={色泽=浅白}。 子集D1包含编号为{1,4,6,10,13,17}的6个样例,其中正例占p1=3/6,反例占p2=3/6。计算用“色泽”划分之后所获得的3个分支结点的信息熵为:

                                       Ent(D^{1})=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}=-(\frac{3}{6}log_{2}\frac{3}{6}+\frac{3}{6}log_{2}\frac{3}{6})=1.000

                                       Ent(D^{2})=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}=-(\frac{4}{6}log_{2}\frac{4}{6}+\frac{2}{6}log_{2}\frac{2}{6})=0.918

                                      Ent(D^{3})=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}=-(\frac{1}{5}log_{2}\frac{1}{5}+\frac{4}{5}log_{2}\frac{4}{5})=0.722

计算属性“色泽”的信息增益为:     

                 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值