机器学习 | 决策树

一.基本原理

决策树是一种树状结构模型,每一个根节点都是一个特征判断,它的叶子节点就是它的特征分类结果

决策树是一种分类和回归的基本模型,是一棵树的形式,其实就是将平时所说的 if-else 语句构建成了树的形式。决策树主要包括三个部分:内部节点,叶节点,边。构建决策树就是一个递归的选择内部节点,计算划分条件的边,最后到达叶子节点的过程

  • 内部节点:划分的特征,也叫决策节点
  • 叶节点:表示一个类,对应于决策结果
  • 边:代表划分的条件

无论是哪种决策树算法,其目的都是为了让模型的不确定性降低的越快越好

基于评价指标的不同,主要分为:ID3算法,C4.5算法,CART算法

C4.5算法
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有:

  • 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足
  • 在树构造过程中进行剪枝
  • 能处理非离散的数据
  • 能处理不完整的数据

优点:产生的分类规则易于理解,准确率较高
CART分类与回归树
是一种决策树分类方法,采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的,称为分类树;如果目标变量是连续的,称为回归树。分类树是使用树结构算法将数据分成离散类的方法
优点

  • 非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树
  • 在面对诸如存在缺失值、变量数多等问题时CART 显得非常稳健

缺点

  • 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
  • C4.5只适合于能够驻留于内存的数据集,当训练集大的无法在内容容纳时,程序无法运行
     

二.优缺点

优点

  • 易于理解和解释,可以可视化分析,容易提取出规则
  • 可以同时处理标称型数据和数值型数据
  • 测试数据集时,运行速度比较快
  • 可以很好的扩展到大型数据库中,同时它的大小独立于数据库的大小
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值