机器学习算法系列（三）：决策树分类模型

最新推荐文章于 2024-06-20 19:41:48 发布

拙能胜巧nsq

最新推荐文章于 2024-06-20 19:41:48 发布

阅读量4.7k

点赞数 1

分类专栏：机器学习系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20106375/article/details/94158472

版权

1.分类决策树介绍：

决策树是树模型的基础形式。它包含一个根节点，若干个内部节点，以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试，每个子节点对应于一个决策结果（分为多少类就有多少个子节点）。决策树学习的目的在于产生一颗泛化能力强的决策树。

决策树的优点：(1):直观易理解，符合人认知事物的过程。(2)应用范围广，分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限制。一般还会通过限制树的高度，或者叶子节点上样本的数量来防止过拟合。

2.决策树停止的三种情况：

当前节点所包含的所有样本都属于同一类，无需再划分。
当前节点上所有属性的值都相同，不能再划分。此时将类别设置为当前节点上所含样本最多的类别。
当前节点包含的样本集为空，无法划分。此时将类别设置为当前节点父节点上所含样本最多的类别。

3.划分方法

依照划分方法的不同，分为三种算法，ID3,C4.5,CART。根本问题在于如何选择最优的划分属性。进一步理解就是说经过这个节点划分后的节点纯度达到最高。

3.1 ID3算法

该算法依据信息增益计算。

信息熵计算： $Ent(D)=-\sum_{k=1}^{y}p_klog_2p_k$

其中p_k代表当前样本中第k类样本所占的比例。Ent(D)的值越小，则D的纯度越高。

假设利用属性a进行分类，a有v个分支节点。其中每个分支节点上的样本数目为 $D^v$ 。这样就可以在每个分支节点上计算出信息熵。然后给每个分支节点赋予权重 $\frac{D^v}{D}$ ，即节点上样本数目越多，则该节点的权重越大。这样就可以得到划分后的信息熵

最低0.47元/天解锁文章

拙能胜巧nsq

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法系列（三）：决策树分类模型

1.分类决策树介绍：决策树是树模型的基础形式。它包含一个根节点，若干个内部节点，以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试，每个子节点对应于一个决策结果（分为多少类就有多少个子节点）。决策树学习的目的在于产生一颗泛化能力强的决策树。决策树的优点：(1):直观易理解，符合人认知事物的过程。(2)应用范围广，分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。