Datawhale 西瓜书第四章

shell

于 2021-07-22 22:39:49 发布

阅读量78

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shellup/article/details/119010446

版权

1、决策树基本流程

决策树是模拟树状的决策过程，包括根节点、叶子节点和内部节点。根节点包括样本全集，叶子节点表示决策结果。决策树计算的过程就是寻找一条从根节点到叶子节点的路径。

基本算法过程为：

2、划分选择

决策树是递归过程，分为三种情况：

（1）当前节点包含的样本全属于同一类别，无需化划分。

（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。

（3）当前节点包含的样本集合为空，不能划分。

具体而言，划分的方法包括

（1）信息增益。信息增益是使用信息熵来对样本的纯度进行分析。信息熵定义为：

$Ent(D)=-\sum_{k=1}^{|y|}p_{k}log_{2}p_{k}$

信息熵越小，数据集的纯度越高。

（2）增益率。决策过程包括较多的属性偏好。为了减少属性偏好对决策树的影响，引入的增益率的概念，进行最优划分属性选择，计算公式为：

$Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

3、剪枝处理。剪枝处理是为了防止训练过程过拟合而导致的模型泛化性能不佳，包括预剪枝和后剪枝策略等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。