文章目录
1.决策树简介
决策树:既能做分类,又能做回归
决策树模型是一种传统的算法,决策树实际上就是在模仿人类做决策的过程。
可以从两个方面来理解决策树:
(1)Aggregation model
Aggregation model:aggregation的核心就是将许多可供选择使用的比较好的hypothesis融合起来,利用集体的智慧组合成G,使其得到更好的机器学习预测模型。
决策树的整个流程类似一个树状结构。如图:
把这种树状结构对应到一个hypothesis G(x)中,G(x)的表达式为:
G ( x ) = ∑ t = 1 T q t ( x ) ⋅ g t ( x ) G(x)=\sum_{t=1}^Tq_t(x)\cdot g_t(x) G(x)=t=1∑Tqt(x)⋅gt(x)
G(x)由许多 g t ( x ) g_t(x) gt(x)组成,即aggregation的做法。每个 g t ( x ) g_t(x) gt(x)就代表上图中的蓝色圆圈(树的叶子)。这里的 g t ( x ) g_t(x) gt(x)是常数,因为是处理简单的classification问题。我们把这些 g t ( x ) g_t(x) gt(x)称为base hypothesis。 q t ( x ) q_t(x) qt(x)表示每个 g t ( x ) g_t(x) gt(x)成立的条件,代表上图中橘色箭头的部分。不同的 g t ( x ) g_t(x) gt(x)对应于不同的 q t ( x ) q_t(x) qt(x),即从树的根部到顶端叶子的路径不同。图中中的菱形代表每个简单的节点。所以,这些base hypothesis和conditions就构成了整个G(x)的形式,就像一棵树一样,从根部到顶端所有的叶子都安全映射到上述公式上去了。
(2)条件分支的思想
将整体G(x)分成若干个