机器学习方法篇(3)------决策树入门

● 每周一言

学习,是为了更好地活着。

导语

决策树是一种树形分类模型,每个非叶子结点相当于IF条件语句,该模型通过逐个判定特征所属类别对样本进行分类。那么,决策树模型具体是如何实现的?

决策树

本着直观讲解的原则,我们尽量不用公式,先从一个例子入手。延续上一篇的判瓜模型,考虑西瓜特征一共有色泽、根蒂、敲声、纹理、脐部、触感六种,决策树将以某种顺序依次考查每个特征,通过逐层缩小范围最终判定是否好瓜。由于树结构具有上下关系,而决策树采用自上而下建树,因此特征考查顺序就直接决定了最终的分类效果。

fig1

决策树选择特征的依据叫做 信息增益。这里自然就牵涉到了信息熵,有关信息熵的讲解可参见我之前的文章。这里的信息增益指:选取当前特征划分数据集后,所减少的数据混乱程度。

这样说或许有点晦涩,不妨举个例子,比如一个全是好瓜的数据集信息量为:-1log1 = 0,可知该数据集的混乱程度达到最低,因为不用判断就知道里面全是好瓜;而对于一个一半好瓜一半不是好瓜的数据集,信息量则是:-(1/2log(1/2) + 1/2log(1/2)) = 1,现假设存在某个特征恰好能区分是否好瓜,那么用这个特征划分这个数据集之后的信息增益计算方法为:1 - ((1/2)(-1log1)+(1/2)(-1log1)) = 1。ID3算法就是每次选择最大信息增益的特征作为父节点,向下扩展决策树,直到不能继续扩展为止。

fig2

在计算信息增益的时候我们发现,当属性取值较多时,其信息增益往往偏高。极端情况下,比如每个属性值只对应一个样本的时候,信息增益等于最大值1。显然,这样的决策树泛化能力太弱。因此, C4.5算法应运而生,该算法使用 增益率优化,增益率等于信息增益除以数据集上该特征的总信息量。具体思路是,先选出信息增益高于平均水平的特征,然后再从中选择增益率高的特征。

此外,还有一种CART算法使用“基尼指数”来选择划分属性,这里不展开描述。敬请期待下节 决策树剪枝

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值