统计学习方法|决策树

最新推荐文章于 2022-12-20 13:45:03 发布

jiang cheng 828

最新推荐文章于 2022-12-20 13:45:03 发布

阅读量414

点赞数

本文链接：https://blog.csdn.net/kjcm123456/article/details/93506745

版权

1 决策树

下面主要介绍决策树的基本概念，然后通过ID3和C4.5介绍特征的选择、决策树的生成以及决策树的修剪，最后介绍CART算法。

1.1 决策树模型与学习

1.1.1 决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构，决策树由结点 (node) 和有向边 (directed edge) 组成.结点两种类型:内部结点(internal node)和叶结点(1eaf node)内部结点表示一个特征或属性，叶结点表示一个类。
用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分到叶结点的类中。
图5.1 是一个决策树的示意图。图中圆和方框分别表示内部结点和叶节点。
在这里插入图片描述

1.1.2 决策树与if-then规则

可以将决策树看成一个if-then规则的集合。将决策树转换成if-then规则的过程是这样的：由决策树的根结点到叶结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质：互斥并且完备。这就是说，每个实例都被一条路径或一条规则所覆盖，而且只被一条路径或一条规则所覆盖。这里所谓覆盖是指实例的特征与路径上的特征一致或实例满足规则的条件。

1.1.3 决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分（partition）上。将特征空间划分为互不相交的单元(cell)或区域 (region) ，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量，Y为表示类的随机变量，那么这个条件概率分布可以表示为 P(Y，X)。X取值于给定划分下单元的集合.Y取值于类的集合，各叶结点(单元)上的条件概率往往偏向某一个类。即属于某类的概率较大。决策树分类时将该结点的实例强行分到条件概率大的那一类去。
在这里插入图片描述

上图a

最低0.47元/天解锁文章

jiang cheng 828

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法|决策树

决策树 (decision tree)一种基本的分类与回归方法。决策树在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。
复制链接

扫一扫