五、决策树--统计学习方法总结

最新推荐文章于 2022-03-18 18:13:32 发布

lemonaha

最新推荐文章于 2022-03-18 18:13:32 发布

阅读量5.3k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/lemonaha/article/details/53886246

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

- 五决策树

五、决策树

决策树（decision tree）是一种基本的分类与回归方法，这里主要讨论用于分类的决策树。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要的有点是模型具有可读性，分类速度快，学习时利用训练数据，根据损失函数最小化的原则简历决策树模型。决策树的学习通常包括三个步骤：特征选择，决策树的生成和决策树的修剪。

5.1决策树模型与学习

5.1.1决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内结点（internal node）和叶结点（leaf node）。内部结点表示一个特征或者属性，叶结点表示一个类。

5.1.2决策树与if-then规则

可以将决策树看成是一个if-then规则的集合。将决策树转化成if-then规则的过程是这样的：由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。

5.1.3决策树与条件概率分布

决策树还表示给定特征条件下的类的条件概率分布。这一条件概率分布定义在特征空间的一个划分（partition）上。将特征空间划分为互不相交的单元（cell）或者区域（region），并在每个单元定义一个类的概率分布就构成了一个条件概率分布。
Alt text

5.1.4决策树学习

决策树学习，假设给定训练数据集

D = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

$D=\{ (x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中，

xi $x_i$ 为输入实例（特征向量）

yi $y_i$ 为类标记，

N $N$ 为样本容量。学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。
决策树学习本质上是从训练数据集中归纳出一组分类规则。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。另一个角度看，决策树学习是由训练数据集估计条件概率模型。我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。
决策树学习用损失函数表示这一目标。如下所述，决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。
当损失函数确定以后，学习问题就变为在损失函数意义下选择最优决策树的问题。因为从所有可能的决策树中选取最优决策树是NP完全问题（NP的英文全称是Non-deterministic Polynomial的问题，即多项式复杂程度的非确定性问题），所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题。这样得到的决策树是次最优(sub-optimal)的。
决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程。

5.2特征选择

5.2.1特征选择问题

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。

5.2.2信息增益

在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

P (X = x i) = p i, i = 1, 2, \dots, n

$P(X=x_i)=p_i,i=1,2,\cdots,n$
则随机变量

X $X$ 的熵定义为

H (X) = - \sum i = 1 n p i log p i

$H(X)=-\sum_{i=1}^n p_i \log p_i$
通常上式中的对数以2为底或者以自然对数

e $e$ 为底，这时熵的单位分别称作比特（bit）或纳特（nat）。由定义可知，熵只依赖于

X $X$ 分布，而与

X $X$ 的取值无关，所以也可以将

X $X$ 的熵记作

H(p) $H(p)$ ,

H (p) = - \sum i = 1 n p i log p i

$H(p)=-\sum_{i=1}^n p_i \log p_i$
熵越大，随机变量的不确定性就越大。从定义可以验证

0 \leq H (p) \leq log n

$0 \le H(p)\le \log n$
当随机变量只取两个值，例如

1,0 $1,0$ 时，即

X $X$ 的分布为

P (X = 1) = p, P (X = 0) = 1 - p, 0 \leq p \leq 1

$P(X=1)=p,P(X=0)=1-p,0\le p\le1$
熵为

H (p) = - p log 2 p - (1 - p) log 2 (1 - p)

$H(p)=-p \log_2p-(1-p)\log_2(1-p)$
这时，熵

H(p) $H(p)$ 随概率

p $p$ 变化的曲线如图
Alt text

当

p=0 $p=0$ 或

p=1 $p=1$ 时，随机变量没有不确定性，当

p=0.5 $p=0.5$ 时，

H(p)=1 $H(p)=1$ ,熵取值最大，随机变量不确定性最大。
设有随机变量

(X,Y) $(X,Y)$ ，其联合概率分布为

P (X = x i, Y = y j) = p i j

$P(X=x_i,Y=y_j)=p_{ij}$
条件熵

H(Y|X) $H(Y|X)$ 表示在已知随机变量

X $X$ 的条件下随机变量

Y $Y$ 的不确定性，随机变量

X $X$ 给定的条件下随机变量

Y $Y$ 的 条件熵(conditional entropy)，定义为

X $X$ 给定条件下

Y $Y$ 的条件概率分布的熵对

X $X$ 的数学期望

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
当熵和条件熵中的概率由数理统计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为 经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。此时若有0概率，则令

0log0=0 $0\log0=0$
信息增益（information gain）表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。
特征

A $A$ 对训练数据集

D $D$ 的信息增益

g(D,A) $g(D,A)$ ，定义为集合

D $D$ 的经验熵

H(D) $H(D)$ 与特征

A $A$ 给定条件下

D $D$ 的经验条件熵

H(D|A) $H(D|A)$ 之差，即

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
一般地，熵 $H(Y)$ 与条件熵 $H(Y|X)$ 之差称为互信息（mutual information）。决策树学习中的信息增益等价于训练数据集中的类与特征的互信息。
决策树学习应用信息增益准则选择特征。信息增益大的特征具有更强的分类能力。
根据信息增益准则的 特征选择方法是：对训练数据集（或子集）

D $D$ ,计算其每个特征的信息增益，并比较他们的大小，选择信息增益最大的特征。

5.2.3信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比（information gain ratio）可以对这一问题进行校正。这是特征选择的另一准则。
定义（信息增益比）：特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即

g R (D, A) = g ( D , A ) H A ( D )

$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$ 其中，

HA(D)=−∑ni=1|Di||D|log2|Di||D| $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2 \frac{|D_i|}{|D|}$

5.3决策树的生成

5.3.1 ID3算法

$ID3$ 算法（interative dichotomiser 3）的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点（root node）开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。 $ID3$ 相当于用极大似然法进行概率模型的选择。
ID3算法只有树的生成，所以该算法生成的树容易产生过拟合。

#计算给定数据集的香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

#按照给定特征划分数据集
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

#选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer

#创建树的函数代码
def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList): 
        return classList[0]#stop splitting when all of the classes are equal
    if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

5.3.2 C4.5的生成方法

$C4.5$ 算法与 $ID3$ 算法相似， $C4.5$ 算法对 $ID3$ 算法进行了改进。 $C4.5$ 在生成的过程中，用信息增益比来选择特征。

5.4决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树容易出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树，解决这一问题的方法是考虑决策树的复杂度，对已生成的决策树进行简化。
在决策树学习中讲已生成的树进行简化的过程称为剪枝（pruning）。
决策树的剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现。设树 $T$ 的叶结点个数为 $|T|$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个, $H_t(T)$ 为叶节点 $t$ 上的经验熵， $\alpha \ge0$ 为参数，则决策树学习的损失函数可以定义为

C α (T) = \sum t = 1 | T | N t H t (T) + α | T |

$C_{\alpha}(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$
令

C α (T) = C (T) + α | T |

$C_{\alpha}(T)=C(T)+\alpha|T|$
其中

C(T) $C(T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度，

|T| $|T|$ 表示模型复杂度，参数

α≥0 $\alpha\ge0$ 控制两者之间的影响。较大的

α $\alpha$ 促使选择较简单的模型（树），较小的

α $\alpha$ 促使选择较复杂的模型（树）。

α=0 $\alpha=0$ 意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。
可以看出，决策树生成只考虑了通过提高信息增益（或信息增益比）对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。
树的剪枝算法
输入：生成算法产生的整个树

T $T$ ，参数

α $\alpha$ ；
输出：修剪后的子树

Tα $T_{\alpha}$
(1)计算每个结点的经验熵
(2)递归地从树的叶结点向上回缩
设一组叶结点回缩到其父结点之前与之后的整体树分别为

TB $T_B$ 与

TA $T_A$ ,其对应的损失函数值分别是

Cα(TB) $C_\alpha(T_B)$ 与

Cα(TA) $C_\alpha(T_A)$ ,如果

C α (T A) \leq C α (T B)

$C_\alpha(T_A)\le C_\alpha(T_B)$ 则进行剪枝，即将父结点变为新的叶结点
(3)返回(2)，直至不能继续为止，得到损失函数最小的子树

Tα $T_\alpha$

5.5 CART算法

分类与回归树(classification and regression tree,CART)模型，是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。以下将用于分类与回归的树统称为决策树。
**CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。**CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。
CART算法由以下两步组成：
(1)决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；
(2)决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

5.5.1 CART生成

决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则，对分类树用基尼（Gini index）指数最小化准则，进行特征选择，生成二叉树。
1.回归树的生成
最小二乘回归树生成算法：
输入：训练数据集D;
输出：回归树 $f(x)$
在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树：
(1)选择最优切分变量 $j$ 与切分点 $s$ ，求解

m i n j, s ⎡ ⎣ m i n c 1 \sum s i \in R i (j, s) (y i - c i) 2 + m i n c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2 ⎤ ⎦

$min_{j,s}\left[min_{c_1}\sum_{s_i\in R_i(j,s)}(y_i-c_i)^2+min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2\right]$
遍历变量

j $j$ ，对固定的切分变量

j $j$ 扫描切分点

s $s$ ，选择使上式达到最小值的对

(j,s) $(j,s)$
(2)对选定的对

(j,s) $(j,s)$ 划分区域并决定相应的输出值：

R 1 (j, s) = {x | x (j) \leq s}, R 2 (j, s) = {x | x (j) > s}

$R_1(j,s)=\{ x|x^{(j)}\le s\},R_2(j,s)=\{ x|x^{(j)}> s\}$

c^m = 1 N m \sum x i \in R m (j, s) y i, x \in R m, m = 1, 2

$\hat c_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i,x\in R_m,m=1,2$
(3)继续对两个子区域调用步骤(1),(2),直至满足停止条件。
(4)将输入空间划分为M个区域

R1,R2,⋯,RM $R_1,R_2,\cdots,R_M$ ，生成决策树：

f (x) = \sum m = 1 M c^m I (x \in R m)

$f(x)=\sum_{m=1}^M\hat c_mI(x\in R_m)$
2.分类树的生成
分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。
基尼指数（定义）：分类问题中，假设有

K $K$ 个类，样本点属于第

k $k$ 类的概率为

pk $p_k$ ,则概率分布的基尼指数定义为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
对于二分类问题，若样本点属于第1个类的概率是

p $p$ ，则概率分布的基尼指数为

G i n i (p) = 2 p (1 - p)

$Gini(p)=2p(1-p)$
对于给定的样本集合

D $D$ ，其基尼指数为

G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2

$Gini(D)=1-\sum_{k=1}^K\left( \frac{|C_k|}{|D|}\right )^2$
这里

Ck $C_k$ 是

D $D$ 中属于第

k $k$ 类的样本子集，

K $K$ 是类的个数。
如果样本集合

D $D$ 根据特征

A $A$ 是否取某一可能值

a $a$ 被分割成

D1 $D_1$ 和

D2 $D_2$ 两部分，即

D 1 = {(x, y) \in D | A (x) = a}, D 2 = D - D 1

$D_1=\{ (x,y)\in D | A(x)=a\},D_2=D-D_1$
在特征

A $A$ 的条件下，集合

D $D$ 的基尼指数定义为

G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
基尼指数

Gini(D) $Gini(D)$ 表示集合D的不确定性，基尼指数

Gini(D,A) $Gini(D,A)$ 表示经

A=a $A=a$ 分割后集合D的不确定性。基尼指数越大，样本集合的不确定性就越大，这一点与熵类似。

CART树的生成
输入：训练数据集D
输出：CART决策树
根据训练数据集，从根结点开始，递归地对每个结点进行一下操作，构建二叉决策树：
(1)设结点的训练数据集为D,计算现有特征对该数据集的基尼指数。此时，对每一个特征A，对其可能取的每个值a，根据样本点对 $A=a$ 的测试是“是”或“否”将D分割成 $D_1$ 和 $D_2$ 两部分
(2)在所有可能的特征A以及它们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点，依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中
(3)对两个子结点递归地调用(1),(2),直至满足停止条件
(4)生成CART决策树
算法停止的条件是结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值（样本基本属于同一类），或者没有更多特征。

5.5.2 CART剪枝

CART剪枝算法从“完全生长”的决策树的底端剪去一些子树，使决策树变小（模型变简单），从而能够对未知数据有更准确的预测。CART剪枝算法由两步组成：首先，从生成算法产生的决策树 $T_0$ 底端开始不断剪枝，直到 $T_0$ 的根结点，形成一个子树序列 $\{ T_0,T_1,\cdots,Tn\}$ ；然后，通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。