决策树

最新推荐文章于 2020-08-01 20:12:52 发布

loveitlovelife

最新推荐文章于 2020-08-01 20:12:52 发布

阅读量247

点赞数 1

分类专栏：机器学习相关

本文链接：https://blog.csdn.net/loveitlovelife/article/details/79038446

版权

机器学习相关专栏收录该内容

18 篇文章 4 订阅

订阅专栏

基本概念

1.决策树是基于树结构来进行决策的；

2.目的：产生一颗泛化能力强，即处理未见示例能力强的决策树，其基本的流程遵循简单直观的“分而治之”策略；

3.组成及代表含义：一个根结点，若干个内部结点；若干个叶结点；
+根结点和内部结点包含属性，叶结点对应数据类别
+每个结点的样本集合根据属性划分到子结点当中
+根结点包含样本全集，从根结点到叶结点包含了一条决策路径；

4.基本策略步骤：
输入：训练集 $D =\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_m,y_m)\}$
属性集 $A=\{a_1,a_2,...,a_d)\}.$
过程：函数 $TreeGenerate(D,A)$
1.生成结点 $node;$
2.if D中样本全属于同一类别C, then
3. $\quad$ 将node标记为C类叶结点；return
4. end if
5. if A = $\varnothing$
6. $\quad$ 将node 标记为叶结点，其类别标记为D中样本数最多的类；return
7. end if
8. 从A中选择最优化分属性 $a_*$ ;
9. for $a_*$ 的每个值 $a_*^v$ do
10. $\quad$ 为node生成一个分支；令 $D_v$ 表示D中在 $a_*$ 上取值为 $a_*^v$ 的样本子集；
11. $\quad$ if $D_v$ 为空 then:
12. $\qquad$ 将分支结点标记为叶结点，其类别标记为D中样本最多的类;return
13. $\quad$ else
14. $\qquad$ 以TreeGenerate $(D_v,A\ \{a_*\})$ 为分支结点
15. $\quad$ end if
16. end for
输出：以node 为根结点的一棵决策树

三种条件下导致递归返回：
1. 当前的结点包含的样本全属于同一类别，无需划分；
2. 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；
3. 当前结点包含的样本集为空，不能划分。

结点的划分和选择

目标：决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。

信息增益

信息熵：度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占比例为 $p_k(k=1,2,...,|y|),$ 则D的信息熵定义为：

E n t (D) = - \sum k = 1 | y | p k l o g 2 p k ， \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 1 ； E n t (D) 的 值 越 小 ， 则 D 的 纯 度 越 高 。

$Ent(D) =-\sum_{k=1}^{|y|} p_k log_2 p_k，··········1 ；Ent(D)的值越小，则D的纯度越高。$

假定离散属性 $a有V$ 个可能的取值 $\{a^1,a^2,...,a^V\},$ 若使用 $a来对样本D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D在属性a$ 上取值为 $a^V的样本D^v$ ，则可以通过1式来求得该属性值下的信息熵；根据属性的不同取值，我们可以将分支节点赋予权重： $|D^v|/|D|$ ，这样我们可以计算出根据属性 $a$ 进行划分时所获得的“信息增益”:

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v) \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot 2.

$Gain(D,a) =Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)··········2.$
++信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大。
++选择结点规则：

a∗=argmaxa∈AGain(D,a) $a_*=arg max _{a \in A}Gain(D,a)$ (ID3算法的选取规则）
（西瓜数据集2.0例很详细，p75-p77）
注：ID3算法只有树生成，所以该算法生成的树容易造成过拟合。

增益率

C4.5决策树算法基于“信息增益率”来选择属性，采用2式相同的符号表示，增益率定义为：

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a ), 其 中 ：

$Gain\_ratio(D,a) =\frac{Gain(D,a)}{IV(a)},其中：$

I V (a) = - \sum v = 1 V | D v | | D | l o g 2 | D v | | D |

$IV(a) =-\sum_{v=1}^V \frac{|D^v|}{|D|} log_2 \frac{|D^v|}{|D|}$
注采用启发式方法来选择划分属性：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

基尼指数

CART决策树(回归树）使用“基尼指数”（Gini index）来挑选划分属性。则数据集D可以用基尼值来度量：

G i n i (D) = \sum k = 1 | y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | y | p 2 k

$Gini(D) =\sum_{k=1}^{|y|} \sum_{k' \neq k} p_k p_{k'} =1-\sum_{k=1}^{|y|} p_k^2$
Gini指数含义：反映从数据集D中随机抽取两样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高。

属性a的基尼指数定义为：

G i n i_i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v) .

$Gini\_index(D,a) =\sum_{v=1}^V \frac{|D^v|}{|D|} Gini (D^v).$
选择使得划分后基尼指数最小的属性作为最优化分属性，即：

a * = a r g a \in A m i n G i n i_i n d e x (D, a)

$a_* =arg_{a \in A} min\quad Gini\_ index(D,a)$

剪枝处理

+对付“过拟合”的手段
+过拟合：在决策树学习中，为了尽可能的将损失函数降到最小，结点划分过程不断重复，造成决策树分支过多，以至于把训练集自身的一些特点当做所有数据的一般特点而导致过拟合。
+预剪枝：对每个结点划分前进行估计，若当前结点的划分不能带来决策树的泛化性能的提升，则停止划分并将当前结点标记为叶节点；
+后剪枝：从训练集生成一颗完整的决策树，然后自底向上对非叶节点进行考察，若将该结点对应的子树替换为叶结点能带来决策树的提升，则将该子树替换为叶结点。
（西瓜书里面的例子用验证集精度来对决策树进行评估，统计学习方法里面用损失函数值来进行评估，窃以为后者更加严格规范一些）

连续值与缺失值处理

连续值处理

+策略：连续属性离散化，采用二分法对连续属性进行处理。
+具体描述：
$\quad$ 给定样本集D和连续属性a,假定a在D上出现了n个不同的取值，将这些值从小到大进行排序，记为 $\{a^1,a^2,...,a^n\}$ 。基于划分点t可将D分为子集 $D_t^-$ （取值不大于t的样本）和 $D_t^+$ （取值大于t的样本）。划分点集合：

T a = {a i + a i + 1 2 | 1 \leq i \leq n - 1}, 划 分 点 为 a i + a i + 1 2

$T_a =\{\frac{a^i+a^{i+1}}{2}|1 \le i \le n-1\},划分点为\frac{a^i+a^{i+1}}{2}$
信息增益：

G a i n (D, a) = m a x t \in T a G a i n (D, a, t) = m a x t \in T a E n t (D) - \sum λ \in {-, +} | D λ t | D E n t (D λ t), t 为 划 分 点

$Gain(D,a)=max_{t\in T_a} Gain(D,a,t)=max_{t \in T_a} Ent(D) -\sum_{\lambda \in\{-,+\}} \frac {|D_t^ \lambda|}{D} Ent(D_t^ \lambda),t为划分点$

注：若当前结点为连续属性，则还可以作为其后代的划分属性。

缺失值处理

需要解决的两个问题：属性值缺失的情况下进行划分属性选择；样本在该属性上的值缺失，对样本进行划分。
具体描述：
问题一：
定义：

ρ = \sum x \in D ^ w x \sum x \in D w x; p^k = \sum x \in D ^ k w x \sum x \in D w x; r^v = \sum x \in D ^ v w x \sum x \in D w x

$\rho = \frac{\sum_{x \in \hat D} w_x}{\sum_{x \in D} w_x};\hat p_k = \frac{\sum_{x \in \hat D_k} w_x}{\sum_{x \in D} w_x};\hat r_v = \frac{\sum_{x \in \hat D^v} w_x}{\sum_{x \in D} w_x}$

wx $w_x$ 为每个样本赋予的权重；

D^ $\hat D$ 表示D中在属性a上没有缺失值的样本子集;

D^k $\hat D_k$ 表示在属性a上属于类别k的个数；