（LXTML笔记）Decision Tree

最新推荐文章于 2023-05-08 14:38:04 发布

windede

最新推荐文章于 2023-05-08 14:38:04 发布

阅读量199

点赞数

分类专栏：算法学习 LXTML

本文链接：https://blog.csdn.net/qq_23997101/article/details/79454982

版权

算法学习同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

LXTML

13 篇文章 0 订阅

订阅专栏

决策树也是有集成模型的形式，如图所示
这里写图片描述
如果以每一条路径为条件 $q_t$ ，叶子为最后的分类函数 $g_t$ （有时候是常数）的话，那么整棵树可以表示为 $G(x)=\sum_{t=1}^T q_t \cdot g_t$ ，这是条件型集成模型的形式。更一般地，我们常常写成递归的形式，即

G (x) = \sum c = 1 C [b (x) = c] G c (x),

$G(x)=\sum_{c=1}^C[b(x)=c]G_c(x),$
其中

b(x) b ( x ) $b(x)$ 为分支方法，

C C $C$ 为该节点的分支数量，

G_{c}

$G_c$ 是

c c $c$ 分支对应的子树，那么要进行learning的话，涉及到下面几点
这里写图片描述

如何学习（定义）分支 $b(x)$ ;
根据 $b(x)$ 将主句分类；
递归建立子树 $G_c$ .
CART

CART即 classification and regression tree，这是一种特殊的决策树，它的分支是2，是一颗二叉树，且底部叶子的分类函数 $g_t$ 返回的是一个最优的常数（如0/1 error时就返回 $\{y_n\}$ 中最多的那个，squared error的话就返回平均值，这些后面会讲到）。

我们如上图所示定义分支函数 $b(x)$ ，其中这里的纯度impurity很好理解，实际就是一种误差的表达，比如

这样的情况下，树的生长在两种情况下回停止，

所有的 $y_n$ 都相同，此时纯度为0，所以此时 $g_t=y_n$
所有的 $x_n$ 都相同，所有的资料特征都相同，此时根本下不了刀

我们称这样自动停止的树称为full-grown tree，显然根据上面的算法，这棵树迟早是完全体树的。

而对于完全体树，其 $E_{in}=0$ ，由之前的课程我们知道，如果一个模型的 $E_{in}=0$ ，那么肯定是付出很大的代价的，这里即几乎算完了每一种情况，所以我们应该对模型增加一些限制（正则化），这里限制的是叶子的数量。

生成fully-grown tree $G^{(0)}$ 之后，我们定义最优目标

$a r g m i n a l l - p o s s i b l e - G E i n (G) + λ Ω (G),$ $argmin_{all-possible-G} E_{in}(G)+\lambda \Omega(G),$
$G^{(1)}$ 的意思是遍历所有的叶子，试着摘掉其中一个叶子（即合并二叉树节点的两个分支），看什么时候argmin最小，接着再合并第二次得到 $G^{(2)}$ ，如此下去，直到满足我们要求的叶子数量为止。

windede

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（LXTML笔记）Decision Tree

决策树也是有集成模型的形式，如图所示如果以每一条路径为条件qtqtq_t，叶子为最后的分类函数gtgtg_t（有时候是常数）的话，那么整棵树可以表示为G(x)=∑Tt=1qt⋅gtG(x)=∑t=1Tqt⋅gtG(x)=\sum_{t=1}^T q_t \cdot g_t，这是条件型集成模型的形式。更一般地，我们常常写成递归的形式，即 G(x)=∑c=1C[b(x)=c]Gc(x),G(...
复制链接

扫一扫

专栏目录