一.基本原理
决策树是一种树状结构模型,每一个根节点都是一个特征判断,它的叶子节点就是它的特征分类结果
决策树是一种分类和回归的基本模型,是一棵树的形式,其实就是将平时所说的 if-else 语句构建成了树的形式。决策树主要包括三个部分:内部节点,叶节点,边。构建决策树就是一个递归的选择内部节点,计算划分条件的边,最后到达叶子节点的过程
- 内部节点:划分的特征,也叫决策节点
- 叶节点:表示一个类,对应于决策结果
- 边:代表划分的条件
无论是哪种决策树算法,其目的都是为了让模型的不确定性降低的越快越好
基于评价指标的不同,主要分为:ID3算法,C4.5算法,CART算法
C4.5算法
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有:
- 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足
- 在树构造过程中进行剪枝
- 能处理非离散的数据
- 能处理不完整的数据
优点:产生的分类规则易于理解,准确率较高
CART分类与回归树
是一种决策树分类方法,采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的,称为分类树;如果目标变量是连续的,称为回归树。分类树是使用树结构算法将数据分成离散类的方法
优点
- 非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树
- 在面对诸如存在缺失值、变量数多等问题时CART 显得非常稳健
缺点
- 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
- C4.5只适合于能够驻留于内存的数据集,当训练集大的无法在内容容纳时,程序无法运行
二.优缺点
优点
- 易于理解和解释,可以可视化分析,容易提取出规则
- 可以同时处理标称型数据和数值型数据
- 测试数据集时,运行速度比较快
- 可以很好的扩展到大型数据库中,同时它的大小独立于数据库的大小