3、决策树

最新推荐文章于 2024-09-16 21:19:24 发布

路人甲wttttt

最新推荐文章于 2024-09-16 21:19:24 发布

阅读量675

点赞数

分类专栏：统计模型文章标签：决策树 ID3 C4.5 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcy19941015/article/details/47123193

版权

统计模型专栏收录该内容

7 篇文章 0 订阅

订阅专栏

决策树主要包括ID3、C4.5、CART三种主要的算法。这三种算法的思想是一致的，都是选择一个属性，对特征空间逐步细分，最后再剪枝。这三步用书上的原话说就是：特征选择，决策树的生成和剪枝。

1、特征选择

信息增益相当于“用这个特征分类”和“数据集本身混乱度”之间的互信息。我们倾向于选择能提供更大互信息的特征，这样意味着用该特征分类更有价值。

在ID3算法中，特征选择是使用了信息增益最大的特征作为节点特征。通过计算特征集中最大的信息增益来选择特征。

但是这样有一点不足，取值较多的特征，一般来说互信息也比较大。所以我们提出了信息增益比的概念。

C4.5算法与ID3的算法基本一致，只是使用信息增益比来代替信息增益。

而在CART算法中，这一想法又有了一些改变。

对于CART回归树，我们采用最小均方误差准则。遍历所有的输入变量和它的定义域，找到最优的特征值对（均方误差最小），然后做分类。

而CART分类树，我们定义了基尼指数（这个是用来衡量数据集的混乱程度，与信息熵类似），切分的方式与回归树类似，一次选择一个特征值对，找到分类后基尼系数最小的特征值对。

2、决策树的生成

一般决策树的生成都是特征选择-->划分特征空间的迭代过程，满足一定条件时结束生成。

这里的条件主要包括：子空间内数据点少，信息增益（信息增益比、基尼指数）小于指定阈值。

3、剪枝

剪枝是为了降低模型的复杂度，一般最小化损失函数。

损失函数由两部分构成，模型精确度项（信息增益，基尼指数等构成）和复杂度罚项。

CART考虑的因素比较多，还考虑了如何找到合适的参数。如果损失函数相同，选择模型复杂度最小的。

路人甲wttttt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。