决策树

最新推荐文章于 2023-04-07 09:55:08 发布

KKKMMMS

最新推荐文章于 2023-04-07 09:55:08 发布

阅读量271

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KKKMMMS/article/details/103219398

版权

决策树算法

决策树在构造过程中不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。

1、ID3，C4.5，CART算法

2、C4.5Rule的泛化能力通常优于C4.5决策树

决策树的解释

1、决策树是基于树结构进行决策的

2、一般地，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。

3、每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。

4、从根结点到每个叶结点的路径对应了一个判定测试序列。

决策树的构建

1、决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

2、决策树的生成是一个递归的过程。

 在决策树基本算法中，有3种情形会导致递归返回：

（1）当前结点包含的样本全属于同一类别，无需划分；

（2）当前结点包含的样本集合为空，不能划分；

（3）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。

但是，这样往往会使得树的节点过多，导致过拟合问题。

可行的方法是增加停止条件：1）当前结点中的记录数低于一个最小的阈值，那么久停止分割。2）设置树的最大深度。

划分属性

贪心算法，使决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高。

划分属性分为三种不同的情况：

1）属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2）属性是离散值且要求生成二叉决策树。此时用属性划分的一个子集进行测试，按照“属于此子集“和”不属于此子集“分成两个分支。

3）属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

1、信息增益、信息熵

ID3决策树学习算法就是以“信息增益”(information gain)为准则来选择划分属性。

信息增益准则对可取值数目较多的属性有所偏好（因为相对来说，每个分支结点下样本越少，纯度越高）。

2、增益率

C4.5决策树算法使用“增益率”(gain ratio)来选择最优划分属性。

增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法不直接选择增益率最大的候选属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3、基尼指数

CART决策树使用“基尼指数”(Gini index)来选择划分属性。

Gini(D)反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。因此Gini(D)越小，则数据集的纯度越高。

剪枝处理

在决策树学习中，为了尽可能正确分类训练样本，节点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得“太好了”，以至于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。

决策树剪枝的基本策略：“预剪枝”(prepruning)和“后剪枝”(postpruning)

连续值处理

1、C4.5决策树算法中采用二分法离散化连续属性。

需要注意的是，与离散属性不同，若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性。

缺失值处理决策树算法

决策树在构造过程中不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。

1、ID3，C4.5，CART算法

2、C4.5Rule的泛化能力通常优于C4.5决策树

决策树的解释

1、决策树是基于树结构进行决策的

2、一般地，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。

3、每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。

4、从根结点到每个叶结点的路径对应了一个判定测试序列。

决策树的构建

1、决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

2、决策树的生成是一个递归的过程。

 在决策树基本算法中，有3种情形会导致递归返回：

（1）当前结点包含的样本全属于同一类别，无需划分；

（2）当前结点包含的样本集合为空，不能划分；

（3）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。

但是，这样往往会使得树的节点过多，导致过拟合问题。

可行的方法是增加停止条件：1）当前结点中的记录数低于一个最小的阈值，那么久停止分割。2）设置树的最大深度。

划分属性

贪心算法，使决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高。

划分属性分为三种不同的情况：

1）属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2）属性是离散值且要求生成二叉决策树。此时用属性划分的一个子集进行测试，按照“属于此子集“和”不属于此子集“分成两个分支。

3）属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

1、信息增益、信息熵

ID3决策树学习算法就是以“信息增益”(information gain)为准则来选择划分属性。

信息增益准则对可取值数目较多的属性有所偏好（因为相对来说，每个分支结点下样本越少，纯度越高）。

2、增益率

C4.5决策树算法使用“增益率”(gain ratio)来选择最优划分属性。

增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法不直接选择增益率最大的候选属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3、基尼指数

CART决策树使用“基尼指数”(Gini index)来选择划分属性。

Gini(D)反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。因此Gini(D)越小，则数据集的纯度越高。

剪枝处理

在决策树学习中，为了尽可能正确分类训练样本，节点划分过程将不断重复，有时会造成决策树分支过多，这时就可能因训练样本学得“太好了”，以至于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。

决策树剪枝的基本策略：“预剪枝”(prepruning)和“后剪枝”(postpruning)

连续值处理

1、C4.5决策树算法中采用二分法离散化连续属性。

需要注意的是，与离散属性不同，若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树算法决策树在构造过程中不需要任何领域知识或参数设置，因此在实际应用中，对于探测式的知识发现，决策树更加适用。1、ID3，C4.5，CART算法2、C4.5Rule的泛化能力通常优于C4.5决策树决策树的解释1、决策树是基于树结构进行决策的2、一般地，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。3、每个结点包含的...
复制链接

扫一扫

KKKMMMS CSDN认证博客专家 CSDN认证企业博客

码龄5年

13: 原创

60万+: 周排名

151万+: 总排名

3336: 访问

: 等级

151: 积分

2: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

最新评论

knn算法和决策树
CSDN-Ada助手: 非常感谢CSDN博主分享关于knn算法和决策树的博客，这篇博客讲解非常清晰，让我对这两个算法有了更深入的了解。我觉得下一篇博客可以探讨一下基于深度学习的图像分类方法，尤其是在图像分类中使用knn算法和决策树的应用。这样的技术文章对其他用户也会非常有帮助，期待更多的分享，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。