决策树

最新推荐文章于 2024-05-22 11:25:42 发布

置顶匠人_C

最新推荐文章于 2024-05-22 11:25:42 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习文章标签：决策树信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/castle_cc/article/details/78861375

版权

机器学习专栏收录该内容

30 篇文章 1 订阅

订阅专栏

决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的修剪。

特征选择

信息增益：
“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标。

E n t (D) = - \sum k = 1 | y | p k log 2 p k

$Ent(D) = - \sum_{k=1}^{|y|}{p_k\log_2p_k}$
信息增益：假定离散属性a有V个可能的取值{a1, a2, …, av}, 若使用a来对样本集D进行划分，则信息增益计算公式为：

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

$Gain(D, a) = Ent(D) -\sum_{v=1}^V{\frac{|D^v|}{|D|}}Ent(D^v)$

我们可以使用信息增益来进行决策树的划分属性选择，ID3算法就是使用的该方法。

增益率：
a信息增益准则对可取数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，可以使用“增益率”(gain ratio)来选择最优划分属性， C4.5就是使用的该方法。
增益率：

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

$Gain\_ratio(D, a) = \frac{Gain(D, a)}{IV(a)}$

其中：

I V (a) = - \sum v = 1 V | D v | | D | log 2 | D v | | D |

$IV(a) = -\sum_{v=1}^V\frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}$
C4.5是先找出信息增益高于平均水平的属性，再从中选择增益最高的。

基尼指数
CART决策树使用“基尼指数”来选择划分属性，数据集D的纯度可用基尼值来度量：

G i n i (D) = \sum k = 1 | y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | y | p 2 k

$Gini(D) = \sum_{k=1}^{|y|}\sum_{k'\neq k}p_kp_{k'}\\ =1-\sum_{k=1}^{|y|}p_k^2$
直观来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率， Gini(D)越小，则数据集D的纯度越高。
属性a的基尼指数定义为：

G i n i_i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v)

$Gini\_index(D, a) = \sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)$

剪枝处理

剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段，决策树剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning），预剪枝是在决策树生成过程中，若对节点的划分不能带来决策树泛化性能的提升，则停止划分并将当前节点标记为叶节点；后剪枝则是先从训练集生成一颗完整的决策树，然后自低向上进行剪枝。
预剪枝降低了过拟合的风险，显著减少了决策树的训练时间开销和预测时间开销。预剪枝基于“贪心”算法，增加了决策树欠拟合的风险。后剪枝决策树的欠拟合的风险很小，泛化性能往往优于预剪枝决策树，但训练时间开销相对要大的多。

连续与缺失值

对于连续属性，我们可以使用离散化技术，最简单的策略是采用二分法。
给定样本集D和连续属性a，假设a在D上出现了n个不同的取值，将这些值从小到大进行排列，选择n-1个划分点进行比较，选取最优划分。

T a = {a i + a i + 1 2 ∣ ∣ ∣ 1 \leq i \leq n - 1}

$T_a = \left\{\frac{a^i+a^{i+1}}{2} \middle| \ 1\leq i \leq {n-1}\right\}$

a对于缺失值，在划分属性选择时，可以忽略缺失该属性的数据。在进行样本划分时，可以划分到所有的子节点。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的修剪。特征选择信息增益：“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标。信息增益：假定离散属性a有V个可能的取值{a1, a2, …, av}, 若使用a来对样本集D进行划分，则信息增益计算公式为：我们可以使用信息增益来进行决策树的划分属性选择，ID3算法就是使用的该方法。增益率： a信息增
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。