西瓜书 Task4 决策树

arbreor

已于 2024-05-27 21:45:29 修改

阅读量305

点赞数 3

文章标签：决策树

于 2024-05-24 10:17:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/arbreor/article/details/139162930

版权

1、基本流程

决策树的目的是为了产生一棵泛化能力的决策树

#决策树生成是一个递归过程

导致递归返回→(1)当前结点包含的样本全属于同一类别，无需划分；(2)当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；(3)当前结点包含的样本集合为空，不能划分.

2、划分选择——图4.2第8行

决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高.
#信息熵
“信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为p(k=1,2,..),则D的信息熵定义为：

Ent(D)的值越小，则D的纯度越高.

#信息增益
假定离散属性a有V个可能的取值{a¹,a²,...}，若使用a来对样本集D进行划分，则会产生V个分支结点，再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重，即样本数越多的分支结点的影响越大，于是可计算出用属性a对样本集D进行划分所获得的“信息增益”(informationgain)

信息增益越大——使用属性a来进行划分所获得的“纯度提升”越大。因此，我们可用信息增益来进行决策树的划分属性选择.

#增益率

信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，“增益率”(gain ratio)来选择最优划分属性.

称为属性a的“固有值”(intrinsic value)，属性a的可能取值数目越多(即V越大)，则IV(a)的值通常会越大。需注意的是，增益率准则对可取值数目较少的属性有所偏好.

#基尼系数

Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高.

3、剪枝处理

剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。
决策树剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning)

#预剪枝：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点

#后剪枝：先从训练集生成一棵完整的决策树然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点

4、连续与缺失值

采用二分法(bi-partition)对连续属性进行处理

#类似4.2

#类似4.2

5、多变量决策树

每个属性视为坐标空间中的一个坐标轴，则d个属性描述的样本就对应了d维空间中的一个数据点，对样本分类——在这个坐标空间中寻找不同类样本之间的分类边界。

决策树所形成的分类边界有一个明显的特点：轴平行(axis-parallel)，即它的分类边界由若干个与坐标轴平行的分段组成.

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

arbreor CSDN认证博客专家 CSDN认证企业博客

码龄3年

8: 原创

144万+: 周排名

14万+: 总排名

3213: 访问

: 等级

138: 积分

41: 粉丝

58: 获赞

2: 评论

61: 收藏

私信

关注

热门文章

最新评论

西瓜书 Task4 决策树
CSDN-Ada助手: 恭喜你写完了第四篇博客“西瓜书 Task4”！非常感谢你的坚持和努力，继续创作下去吧！下一步建议可以尝试探讨更深入的主题，或者结合实际案例进行分析，让读者更加深入理解。希望你继续保持创作的热情和耐心，期待你更多精彩的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
西瓜书Task1
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。