Decision tree

最新推荐文章于 2024-01-20 21:11:40 发布

Chungchinkei

最新推荐文章于 2024-01-20 21:11:40 发布

阅读量187

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39315740/article/details/93596666

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

决策树（decision tree）

决策树学习主要分为3个步骤：特征选择、树的生成和剪枝策略。
常用的决策树算法有ID3，C4.5，CART等。
优点：

基于if-then规则，具有天然的可解释性，容易可视化；
每个特征单独处理，因此数据的缩放不影响划分，不需要做归一化、标准化的预处理。

缺点：
即使做了剪枝，也容易过拟合，因此往往用bagging或boosting等集成学习方法代替单棵树。

特征选择

1.信息增益

ID3决策树学习算法以信息增益为特征选择的准则，信息增益 = 信息熵 - 条件熵。
其中，信息熵代表随机变量的不确定性，其计算公式如下， $K$ 为标签类别的取值数：
$Ent(D)=-\sum_{k=1}^Kp_k\log p_k$

条件熵代表在某一个条件下，随机变量的不确定性， $V$ 为特征 $A$ 的取值数：
$Ent(D|A)=\sum_{v=1}^V \cfrac{|D^v|}{D}Ent(D^v)$

信息增益即为：
$G a i n (D, A) = E n t (D) - E n t (D ∣ A)$

一般情况下，信息增益越大，带来的收益越高。

2.信息增益比

以信息增益作为特征选择的依据，会存在偏向于选择取值比较多的特征的问题。因此C4.5采用了信息增益比作为特征选择的依据，来对此问题进行校正。
信息增益比定义为：
$Gain\_ratio(D,A) = \cfrac{Gain(D,A)}{IV(A)}$

其中， $I V (A)$ 称为特征A的“固有值”：
$\sum_{v=1}^V \cfrac{|D^v|}{D}\log \cfrac{|D^v|}{D}$

特征取值数目越多,则 $I V (A)$ 的值通常会越大，因此信息增益比对取值比较少的特征有偏好。

3.基尼指数

CART决策树（ classification and regression tree）即可用于分类，也可以用于回归。
分类树采用基尼指数（Gini index）来进行特征选择，而回归树采用平方误差作为依据。
数据集D的不确定性可以用基尼值进行度量：
$\sum_{k=1}^Kp_k(1-p_k)=1- \sum_{k=1}^Kp_k^2$

特征A的基尼指数定义如下：
$Gini\_index(D,A) = \sum_{v=1}^V \cfrac{|D^v|}{D}Gini(D^v)$

计算后选取基尼指数最小的特征作为最优划分特征。

剪枝策略

剪枝是决策树学习算法对付过拟合的主要手段，主要分为“预剪枝”和“后剪枝”。

预剪枝

预剪枝基于“贪心”本质禁止树的一些分支展开，具体可以通过限制树的最大深度，内部节点的最小样本数和叶节点的最大数等等的手段来实现。
优点：不需要生成整颗决策树，相对于后剪枝，时间花销较小，算法相对简单，适合大规模问题。
缺点：限制了视野。当前的分支划分不能提升泛化性能，但后续进行的划分却可能显著提升泛化性能，因此预剪枝抛弃了这些可能。

后剪枝

后剪枝是在完全生成决策树之后进行的，自底向上地考察每个非叶结点，可以根据验证集的一些性能指标，决定是否剪枝。
优点：一般情况下，后剪枝比预剪枝的泛化能力要强。
缺点：时间花销太大，算法实现复杂。

Note

1.CART与ID3、C4.5的区别

CART既可以用于分类（基尼指数），也可以用于回归（平方误差）；
CART只能是二叉树，而ID3、C4.5可以是多叉树；

参考资料

李航《统计学习方法》
周志华《机器学习》
通俗理解决策树算法中的信息增益：https://zhuanlan.zhihu.com/p/26596036

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Decision tree

决策树（decision tree）决策树学习主要分为3个步骤：特征选择、决策树生成和修剪策略。常用的决策树算法有ID3，C4.5，CART等。特征选择1.信息增益ID3决策树学习算法以信息增益为特征选择的准则，信息增益 = 信息熵 - 条件熵。其中，信息熵代表随机变量的不确定性，其计算公式为：H(p)=−∑i=1Npilog⁡piH(p)=-\sum_{i=1}^Np_i\log...
复制链接

扫一扫

专栏目录

Chungchinkei CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

32万+: 周排名

130万+: 总排名

4万+: 访问

: 等级

1112: 积分

15: 粉丝

20: 获赞

16: 评论

98: 收藏

私信

关注

热门文章

分类专栏

机器学习 6篇
深度学习 1篇
大数据 10篇
Linux 5篇
常用算法 2篇
剑指Offer 48篇
LeetCode 25篇
Python 1篇
数据挖掘

最新评论

CentOS7+ Hadoop3.2.0+MySQL5.7安装配置Hive3.1.1
Nidalee_: 我的hive能启动能建库建表就报错我疯了
Spark的jupyter notebook开发环境搭建及pyspark的使用
lmw0320: 有几点不明之处，恳请指点下： 1. 远程linux服务器已经安装好了hadoop和spark, 但是没有安装python。只是本地的终端安装了python和jupyter，可以吧？ 2. 本地的终端连接远程的spark，需要在本地终端安装好pyspark吧？那本地是否也要安装spark和hadoop及JDK呢？？这点一直理不清楚。。
CentOS7 + Hadoop3.2.0 + Spark2.4.3搭建
偶白: 大哥，你的路径里面local都能拼错吗
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
Chungchinkei: 这个跟完全二叉树没有关系，主要判断的是遍历的过程是不是先增后减的。如果是先增后减（搜索树大小性质），则index必然会等于size；如果遍历中有多个增减的过程，则证明该树不是搜索树。
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
番茄大人: 不好意思啊，有点没看懂,二叉搜索树不是完全二叉树，请问为什么if index != size: return False 成立呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。