CART分类回归树分析与python实现

Roaring Kitty

已于 2022-05-10 16:34:31 修改

阅读量8.1k

点赞数 5

分类专栏： Machine_learning 机器学习文章标签： cart 剪枝递归总方差

于 2017-11-01 16:27:16 首次发布

本文链接：https://blog.csdn.net/u010665216/article/details/78410384

版权

Machine_learning 同时被 2 个专栏收录

58 篇文章 51 订阅

订阅专栏

机器学习

51 篇文章 29 订阅

订阅专栏

引言

前面我们分享过一篇决策树算法叫ID3:ID3决策树原理分析及python实现。首先我们来回顾下ID3算法。ID3每次选取最佳特征来分割数据，这个最佳特征的判断原则是通过信息增益来实现的。这种按某种特征切分完数据集后，当前特征在下次切分数据集时就不再起作用，因此会存在切分方式过于迅速地问题。ID3算法还存在另一个问题就是它不能直接处理连续型特征，因此算法需要改进。于是有人提出了二元切分法很好的解决了连续性变量问题及切分迅速的问题。其中代表性算法就是CART。

CART分类回归树

CART是Classification And Regression Trees的缩写叫做“分类回归树”。它既能做分类任务又能做回归任务。

分类树：目标变量是类别数据，树被用来识别目标变量可能属于哪个类

回归树：目标变量是连续数据，树被用来预测目标变量的值是多少

CART树的典型代表就是二叉树，如下图所示：
cart-bin

CART树构建算法

因为ID3决策树分享时，我们已经分享过树构建算法的流程，这里我们就直接来实现CART树构建的过程。

树构建框架

在树的构建过程中，与ID3类似采用字典来存储树的数据结构，该字典包含以下4种元素：

待切分的特征
待切分的特征值
右子树。当不再需要切分的时候，也可以是单个值
左子树。与右子树类似

函数createTree()伪代码如下：

可以很明显的发现这是个典型的递归算法。
这个算法与ID3创建分支的算法createBranch()十分类似:
id3
划分数据集的代码如下：

def binSplitDataSet(dataSet, feature, value):
    mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:]
    mat1 = dataSet[nonzero(dataSet[:,feature] <= value)[0],:]
    return mat0,mat1

通过数组过滤方式将数据集合切分得到两个子集并返回。

划分数据点

创建二进制决策树本质上就是递归划分输入空间的过程。有一种贪心的算法用来划分这个空间被称为递归二进制划分。所有输入变量和所有可能的分割点都以贪婪的方式进行评估和选择(例如，每次选择最佳的分割点)。

对分类问题来说，基尼指数（Gini index）被用来选择划分的属性，数据集的纯度可用基尼值来衡量：
$\sum_{k=1}^{|y|}p_k^2$
直观地来说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此Gini(D)越小，则数据集D的纯度越高。对于二分类问题，这就可以写成:
$Gini(D) = 1-p_1^2-p_2^2$
那么属性a的基尼指数定义为
$Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)$
于是，我们在候选属性集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。
对回归问题来说，用最小代价函数来划分数据点，度量方法就是平方误差的总值（总方差）

构建树

在我们构建树的伪代码中有一个“find the best feature to split data"函数，前面我们已经分析了构建回归树时的误差计算方法，根据这个方法就能找到数据集上最佳的二元切分方式。因此这个函数将会完成两部分内容：1.用最佳方式切分数据集 2.生成相应的叶节点
我们实现“find the best feature to split data"函数chooserBestSplit()，它的伪代码如下：
choose
上述伪代码的目标是找到数据集切分的最佳位置。它遍历所有的特征及其可能的取值来确定使误差最小化的切分阈值。
代码如下：

def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    tolS = ops[0]; tolN = ops[1]
    #if all the target variables are the same value: quit and return value
    if len(set(dataSet[:,-1].T.tolist()[0])) == 1: #exit cond 1
        return None, leafType(dataSet)
    m,n = shape(dataSet)
    #the choice of the best feature is driven by Reduction in RSS error from mean
    S = errType(dataSet)
    bestS = inf; bestIndex = 0; bestValue = 0
    for featIndex in range(n-1):
        for splitVal in set(dataSet[:,featIndex]):
            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue
            newS = errType(mat0) + errType(mat1)
            if newS < bestS: 
                bestIndex = featIndex
                bestValue = splitVal
                bestS = newS
    #if the decrease (S-bestS) is less than a threshold don't do the split
    if (S - bestS) < tolS: 
        return None, leafType(dataSet) #exit cond 2
    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):  #exit cond 3
        return None, leafType(dataSet)
    return bestIndex,bestValue#returns the best feature to split on
                              #and the value used for that split