数据挖掘十大经典算法之—-决策树

最新推荐文章于 2024-06-18 15:40:50 发布

weixin_43287568

最新推荐文章于 2024-06-18 15:40:50 发布

阅读量324

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43287568/article/details/112758155

版权

一.决策树的构建

决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略：这里有信息增益，增益比，基尼系数这3种。

所以说信息增益，增益比，基尼系数决定着决策树的划分。选择信息增益最大的属性，作为根节点，依次递归排列。

二.熵和信息熵

通常使用“熵”来度量样本集合的纯度，“熵”就是物体内部的混乱程度，理论上“熵”的值越小，数据集的“纯度”越高，下面是“熵”的计算公式：
在这里插入图片描述

Pk指的是第k类样本所占的比率。
信息熵：指的是测试属性对于样本纯度的增益效果，值越大越好，计算公式为：
在这里插入图片描述

信息增益=样本的熵-所有测试属性熵的和
Dv指的是满足某个测试属性的样本集。
选择信息增益最大的属性，作为根节点，然后递归计算最优的节点属性即可组成最优的策略树。ID3算法就是依此实现的。

同样道理求出特征：工作，年龄，贷款特征的增益，g（D，a4）=0.4，最大，选择a4特征最为最佳特征，先放到树的第一个节点上，依次递归计算。

三. 剪枝处理
构建决策树的过程中，如果完全按照训练集进行分支节点的构建，会使决策树与训练集过拟合，无法支持真实数据的要求，而且由于分支节点过多，还会增大训练和测试的时间开销。为了解决这个问题，需要对决策树进行剪枝处理。

是

最低0.47元/天解锁文章

weixin_43287568

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
数据挖掘十大经典算法之—-决策树

一.决策树的构建决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略：这里有信息增益，增益比，基尼系数这3种。所以说信息增益，增益比，基尼系数决定着决策树的划分。选择信息增益最大的属性，作为根节点，依次递归排列。二.熵和信息熵通常使用“熵”来度量样本集合的纯度，“熵”就是物体内部的混乱程度，理论上“熵”的值越小，数据集的“纯度”越高，下面是“熵”的计算公式：在这里插入图片描述Pk指的是第k类样本所占的比率。信息熵：指的是测试属性对于样本纯度的增益效果，值越大越好，计算公式为：信息增益
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。