一 决策树介绍
决策树是一种基本的分类与回归方法。
决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。可以认为是if-then规则集合。
决策树学习通常包含3个步骤:特征选择、决策树生成、决策树剪枝
二 决策树学习过程
1、特征选择
特征选择在于选取对训练数据具有分类能力的特征。特征选择的三个方法
(1)信息增益
缺点:类别做的特征的信息增益会更大,故会偏向于选择类别较多的特征,伊日惠容易产生过拟合的问题
(2)信息增益率
在信息增益基础上产生的方法。校正了信息增益的缺点。每个特征的信息增益/该特征的信息熵
(3)基尼系数
2、决策树生成算法
(1)ID3
算法原理:选用信息增益来进行特征选择,递归的构建决策树。
缺点:(1)容易产生过拟合;(2)不能处理连续变变量
应用:分类问题
(2)C4.5
算法原理:选用信息增益率来进行特征选择,地柜构建特征树。
解决了ID3的缺点问题(可以处理连续变变量)
应用:分类问题
(3)CART
算法原理:采用吉尼斯相互进行特征算则,地柜构建特征树
应用:分类与回归问题均可
3、决策树剪枝
一般通过极小化决策树整体的损失函数或者代价函数来实现
书籍《统计学习方法》