决策树分类算法小结

最新推荐文章于 2022-05-21 19:48:36 发布

a353833082

最新推荐文章于 2022-05-21 19:48:36 发布

阅读量2.7k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a353833082/article/details/45647585

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

决策树主要有ID3，C4.5，CART等形式。ID3选取信息增益的属性递归进行分类，C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类，也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。

ID3算法：

信息熵： H(X)=-sigma（对每一个x）（plogp） H(Y|X)=sigma(对每一个x)（pH(Y|X=xi)）

信息增益：H（D）-H(D|X) H(D)是整个数据集的熵

信息增益率：（H(D)-H(D|X)）/H(X)

算法流程：（1）对每一个属性计算信息增益，若信息增益小于阈值，则将该支置为叶节点，选择其中个数最多的类标签作为该类的类标签。否则，选择其中最大的作为分类属性。

（2）若各个分支中都只含有同一类数据，则将这支置为叶子节点。

否则继续进行（1）。

CART算法：

基尼系数：Gini（p）=sigma（每一个类）p(1-p)

回归树：属性值为连续实数。将整个输入空间划分为m块，每一块以其平均值作为输出。f(x)=sigma(每一块)Cm*I(x属于Rm)

回归树生成：（1）选取切分变量和切分点，将输入空间分为两份。

（2）每一份分别进行第一步，直到满足停止条件。

切分变量和切分点选取：对于每一个变量进行遍历，从中选择切分点。选择一个切分点满足分类均方误差最小。然后在选出所有变量中最小分类误差最小的变量作为切分变量。

分类树：属性值为离散值。

分类树生成：（1）根据每一个属性的每一个取值，是否取该值将样本分成两类，计算基尼系数。选择基尼系数最小的特征和属性值，将样本分成两份。

（2）递归调用（1）直到无法分割。完成CART树生成。

决策树剪枝策略：

预剪枝（树提前停止生长）和后剪枝（完全生成以后减去一些子树提高预测准确率）

降低错误率剪枝：自下而上对每一个内部节点比较减去以其为叶节点和子树的准确率。如果减去准确率提高，则减去，依次类推知道准确率不在提高。

代价复杂度剪枝：从原始决策树T0开始生成一个子树序列{T0、T1、T2、...、Tn},其中Ti+1是从Ti总产生，Tn为根节点。每次均从Ti中减去具有最小误差增长率的子树。然后通过交叉验证比较序列中各子树的效果选择最优决策树。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。