决策树(Decision Tree)

最新推荐文章于 2023-08-29 08:08:48 发布

Datawhale

最新推荐文章于 2023-08-29 08:08:48 发布

阅读量1.3k

点赞数

分类专栏：算法工程师面经算法工程师面经

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datawhale/article/details/90605363

版权

本文介绍了决策树的基础知识，包括算法的递归构建过程、核心的熵和信息增益概念，以及C4.5与ID3算法的区别。讨论了决策树在处理实数特征时的策略，并解释了为何C4.5选择信息增益比而非信息增益。此外，文章还阐述了决策树的剪枝方法以防止过拟合，并分析了决策树的优点和局限性。

摘要由CSDN通过智能技术生成

Author: xiaoran;
Email: PursuitFlow@163.com, xiaoranone@126.com
Datawhale

简介和算法

决策树是机器学习最常用的算法之一，它将算法组织成一颗树的形式。其实这就是将平时所说的if-then语句构建成了树的形式。这个决策树主要包括三个部分：内部节点、叶节点和边。内部节点是划分的属性，边代表划分的条件，叶节点表示类别。构建决策树就是一个递归的选择内部节点，计算划分条件的边，最后到达叶子节点的过程。

伪代码:
输入: 训练数据集D，特征集A，阈值 $\epsilon$ .
输出: 决策树T.

如果D中所有实例属于同一类 $C_k$ ,则置T为单结点树，并将 $C_k$ 作为该结点的类，返回T.
如果 $A=\emptyset$ , 则置T为单结点树，并将D中最多的类 $C_k$ 作为该节点的类，返回T.
否则，根据相应公式计算A中各个特征对D的(信息增益、信息增益比、基尼指数等)，选择最合适的特征 $A_g$ .
如果 $A_g$ 的得分小于 $\epsilon$ ,则置T为单结点树，并将 $C_k$ 作为该结点的类，返回T.
否则，根据 $A_g$ 特征取值，对数据D进行划分，继续递归构造决策树, 返回T.

核心公式

信息熵: $P(X=x_i)=p_i, i=1,2,...,n$ 则随机变量X的熵定义为:

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。