决策树学习笔记(二)

决策树学习笔记(二)

接着上一篇


接着上一篇笔记决策树学习笔记(一)继续学习,上一篇主要是对决策模型的初步认识和理解以及特征选择的一些规则;接下去就是决策树算法的具体实现和优化,包括决策树生成、剪枝以及分类与回归树(CART)详解。分类与回归树模型还会在后续的提升树学习中结合使用。

做学习笔记确实是一件比较耗时的事情(已经快被实验室项目榨干精力,期盼周末TT),仅剩的空闲时间勉强够我对最近的学习内容做些整理;看完一遍后书本知识再做整理的过程中确实能加深对算法的理解,把算法原理步骤再表达一遍才能发现哪些地方自己并不是很清楚,然后思考、搜索、解答。

5.决策树生成


决策树学习的生成算法主要有ID3算法和C4.5算法,其实它们的生成过程是类似的,前者用信息增益准则选择特征,后者则是加强版—信息增益比。(关于信息增益比的好处上一篇笔记中已经介绍)

ID3算法:在决策树的各个结点上采用信息增益准则选择特征,递归构建决策树。

具体实现:从根结点开始,对当前结点计算所有特征的信息增益,选择信息增益最大的特征作为当前结点特征,然后根据该特征的不同取值构建子结点;接着对新生成带我子结点递归执行以上步骤,直到所有特征的信息增益都很小或者没有特征可选(分类完毕)为止。

书上说:ID3相当于用极大似然法进行概率模型的选择。—这里理解起来需要统计学知识,似懂非懂…

极大似然法是属于数理统计范畴,旨在由果溯因。比如扔一枚骰子(骰子每个面上只标记1或2),现在告诉你扔了n次骰子其中有k次朝上的是1;然后问你这个骰子标记为1的面所占的比例w是多少?极大似然法的思想就是估计当w取值为多少的时候,k次朝上的可能性最大。具体计算方法就是对表达式求最大值,得到参数值估计值:

一般就是对这个表达式求一阶导=0(二阶导<0);

这就是极大似然估计方法的原理:用使概率达到最大的那个w来估计位置参数w。回到ID3,决策树生成的过程可以理解成对决策树模型的参数估计(就是基于特征空间划分的类的概率模型),根据训练数据的特征分布,选择使得模型最契合当前样本分布空间时的条件概率模型。

算法步骤:


  • 6
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值