DataWhale吃瓜第四章学习——决策树

最新推荐文章于 2024-08-31 23:13:29 发布

JXN20210043

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量329

点赞数 6

分类专栏：吃瓜文章标签：学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JXN20210043/article/details/140111008

版权

吃瓜专栏收录该内容

7 篇文章 0 订阅

订阅专栏

第4章决策树

基本流程与定义

决策树是一种分类模型，通常用于预测基于一组属性或特征的值。它通过一系列问题将数据分割成越来越小的子集，直到每个子集都包含相似的值，即叶结点。决策树通常包括一个根结点、若干内部结点和叶结点。

决策树生成算法

递归生成过程: 从根节点开始，根据当前节点的属性集对训练集进行划分，直至满足停止条件。
停止条件: 有三种情形会导致递归返回：(a) 所有样本属于同一类别， (b) 属性集为空或所有样本在所有属性上取值相同， (c) 当前节点样本集合为空。
最优划分属性选择: 选择能够最大化信息增益的属性作为当前节点的划分属性。
- 信息熵的定义： Ent(D) = -p1log2(p1) - p2log2(p2) ... (其中pi是第i类样本的比例)。
- 信息增益Gain(Da) = Ent(D) - ∑Pi*Ent(Di): 计算每个分支的信息增益并选择最大者。

剪枝处理

剪枝是防止过拟合的主要手段，包括预剪枝和后剪枝两种策略：

预剪枝: 在每个节点上评估是否继续划分，如果划分不能提升泛化性能则停止划分。
后剪枝: 首先生成完整的决策树，然后自底向上地移除那些不会提升验证集精度的子树。

连续属性的处理

对于连续属性，使用离散化技术将其划分为若干个区间，再基于这些区间建立决策树，可以通过选择中位数作为分割点来处理连续属性。

缺失值处理

当存在缺失值时，可以采用加权的方式处理，即给有缺失值的样本分配较低的权重，以减少其对模型的影响。

多变量决策树

多变量决策树也称为斜决策树，其中分类边界不总是与坐标轴平行，而是可以根据实际需要采用更复杂的分段方式来近似真实的分类边界。

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DataWhale吃瓜第四章学习——决策树

决策树是一种分类模型，通常用于预测基于一组属性或特征的值。它通过一系列问题将数据分割成越来越小的子集，直到每个子集都包含相似的值，即叶结点。决策树通常包括一个根结点、若干内部结点和叶结点。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。