统计学习方法第五章笔记——决策树

最新推荐文章于 2022-07-03 01:55:21 发布

八月夏凉

最新推荐文章于 2022-07-03 01:55:21 发布

阅读量767

点赞数

分类专栏：笔记文章标签：统计学决策树统计学习方法 cart算法

本文链接：https://blog.csdn.net/u010366427/article/details/63253579

版权

笔记专栏收录该内容

32 篇文章 2 订阅

订阅专栏

　　本章主要介绍了三种决策树：ID3，C4.5，CART。并介绍了它们各自的剪枝方法。

5.1 决策树模型与学习

　　决策树模型是一个树模型，其内部节点代表一个特征，内部节点的子节点表示按这个特征将一条记录划分到不同子集中去。其叶子节点表示了一个类，即分类或回归的结果。样本输入决策树后按照根节点给出的划分方式划分到子节点中，再按子节点给出的划分方式划分到子节点的子节点中，直到到达叶子节点，并将叶子节点的分数作为输出。
　　这一方式可以看做if-then规则的集合，也可以看做是一种条件表示概率，即在给定节点特征的条件下，样本分类的条件概率。
　　决策树的目的同样是损失函数最小，但需要遍历所有树结构以及所有叶子的分裂方式，该问题是NP完全问题，因此大多采用贪心的方式来学习。

5.2 特征选择

5.2.1 ID3信息增益
　　信息增益的准则来源于信息熵，信息熵是一种度量，来衡量一个随机变量的不确定程度，或者也可以说惊喜程度。如果一个随机变量是完全确定的，我们就知道对这个随机变量每一次随机的结果，即毫无惊喜可言。如果一个随机变量在每种取值上概率均等，我们永远不知道下一次这个变量会取什么值，即每一次都是惊喜。同时对变量的单个取值而言，其概率越高，代表能带给我们的惊喜越少，即熵应该越低。熵的形式化的定义为：

H (X) = - \sum n i = 1 p i l o g p i

$H(X)=-∑_{i=1}^np_i logp_i$
其中，

pi $p_i$ 是随机变量取值为i的概率。之所以熵定义成这样是为了满足熵的可加性。而条件熵即联合分布中，给定了一个变量后另一个变量的不确定程度。其形式化定义为：

H (X | Y) = - \sum n i = 1 p i H (X | Y = y i)

$H(X|Y)=-∑_{i=1}^np_i H(X|Y=y_i)$
因此定义信息增益为：

g a i n (X, Y) = H (X) - H (X | Y)

$gain(X,Y)=H(X)-H(X|Y)$
　　每次决定分裂的时候，选择信息增益最大的特征作为分裂特征，将其每个特征分裂为一个新节点。
5.2.2 C4.5信息增益比
　　从信息增益上可以看出，如果特征的取值很多，会造成其信息增益很大，因此ID3会倾向选择取值比较多的特征进行分裂。为了避免这一点，C4.5采用了信息增益比，通过除以特征的熵来平衡这一趋势。

5.3 分裂算法

　　即贪心地从根节点开始选择特征进行分裂，分裂后到每个子节点继续分裂。需要注意的是，如果当信息增益或者信息增益比小于某一阈值，则停止分裂。在树中同一条路径上不应使用同一特征两次。

5.4 决策树的剪枝

　　决策树的剪枝是为了控制模型复杂度。在这里首先定义决策树的损失函数，然后根据损失函数来判断是否剪枝。决策树的损失函数为：

C α (T) = \sum | T | t = 1 N t H t (T) + α | T |

$C_α (T)=∑_{t=1}^{|T|}N_t H_t (T)+α|T|$
其中，

T $T$ 是决策树的叶子节点个数，

Ht(T) $H_t (T)$ 为节点

t $t$ 上的熵。可以看到，该损失函数由决策树的训练误差以及树的复杂度决定。
剪枝方法是，递归地向上回缩树的节点，如果发现回缩后损失函数更低，则剪枝。

5.5 CART算法

　　CART也是一种决策树算法，其特点是每次分裂只分裂出两个子节点。该方法支持分类以及回归的目标
　　在分类上，CART选用了基尼指数作为分裂标准，基尼指数越高，代表节点内的不纯度越高，其使用方法和熵相同。但由于CART只分裂两个节点，因此在特征有多个取值时，将一个取值的样本放入一个节点，将其他取值的样本放入另一个节点。
　　在回归上，CART遍历每个特征的每个可能划分点，并用平方误差来表示训练误差，形式化而言：