决策树算法梳理

最新推荐文章于 2019-05-18 16:25:54 发布

ONGOING_w

最新推荐文章于 2019-05-18 16:25:54 发布

阅读量155

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Z_World/article/details/88194009

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

决策树算法梳理

1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）

熵：描述一个时间的不确定性。
联合熵：A与B同时发生的信息熵。
条件熵：在A发生的情况下B发生的信息熵。
信息增益：Gain为A为特征对训练数据集D的信息增益，它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
基尼不纯度：基尼不纯度,是指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率。

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

ID3算法
ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。
具体方法是：从根节点（root node）开始，对结点计算所有可能的特征信息增益，选择信息增益最大的特征作为结点特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息均很小或没有特征可以选择为止。
C4.5
C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进。C4.5在生成过程中，用信息增益比来选择特征。
CART分类树
CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

3. 回归树原理

决策树（decision tree）也称为分类树（分类）或者回归树（数值预测）。是一种有监督的机器学习算法，是一个分类算法。在给定训练集的条件下，生成一个自顶而下的决策树，树的根为起点，树的叶子为样本的分类，从根到叶子的路径就是一个样本进行分类的过程。

决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。分类的时候，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子结点；此时，每一个子结点对应着该特征的一个取值。如此递归向下移动，直至达到叶结点，最后将实例分配到叶结点的类中。

4. 决策树防止过拟合手段

合理、有效地抽样，用相对能够反映业务逻辑的训练集去产生决策树
剪枝：提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。

5. 模型评估

自助法（bootstrap）：
训练集是对于原数据集的有放回抽样，如果原始数据集N，可以证明，大小为N的自助样本大约包含原数据63.2%的记录。当N充分大的时候，1-（1-1/N）^(N) 概率逼近 1-e^(-1)=0.632。抽样 b 次，产生 b 个bootstrap样本，则，总准确率为（accs为包含所有样本计算的准确率）：
$a c c b o o t = 1 b \sum i = 1 b (0.632 \times ε i + 0.368 \times a c c s)$

ONGOING_w

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树算法梳理

决策树算法梳理1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景3. 回归树原理4. 决策树防止过拟合手段5. 模型评估1. 信息论基础（熵联合熵条件熵信息增益基尼不纯度）熵：描述一个时间的不确定性。联合熵：A与B同时发生的信息熵。条件熵：在A发生的情况下B发生的信息熵。信息增益：Gain为...
复制链接

扫一扫