【西瓜书】第4章决策树---学习笔记_决策树算法伪代码-CSDN博客

本文链接：https://blog.csdn.net/qq_31514061/article/details/125434640

本文深入探讨了决策树算法的基本流程，包括如何创建分支、信息熵和信息增益的概念。通过计算信息熵来评估数据集的纯度，并介绍了信息增益作为划分特征的选择标准。同时，文章讨论了剪枝策略，如预剪枝和后剪枝，以及它们的优缺点。此外，还详细阐述了如何处理连续值和缺失值，包括采用二分法处理连续属性和计算缺失值的信息增益。通过对属性的智能处理，决策树能够更好地适应各种数据类型。

摘要由CSDN通过智能技术生成

1.基本流程

createBranch()函数的伪代码：

检测数据集中的每个子项是否属于同一分类：  
If so return 类标签； 
Else 
    寻找划分数据集的最好特征 
    划分数据集 
    创建分支节点 
      for 每个划分的子集 
        调用函数createBranch并增加返回结果到分支节点中 
    return 分支节点

2.划分选择

2.1信息增益

假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $P_ k (k = 1, 2,. . . , |y| )$
信息熵定义： $-\Sigma^{|y|}_{k=1}p_klog_2p_k$
计算信息熵的示例代码：

def Entropy(dataSet):
    num = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: # 统计每个类别的数量
        currentLabel = featVec[-1] #最后1列为键
        if currentLabel not in labelCounts.keys(): 
            labelCounts[currentLabel] = 0 #初始值=0
        labelCounts[currentLabel] += 1 #统计+1
    entropy = 0.0
    for key in labelCounts:  #
        prob = float(labelCounts[key])/num
        entropy -= prob * math.log(prob,2) #log base 2
    return entropy

创建数据集

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    featureNames = ['no surfacing','flippers'] #不浮出水面是否存活 ，有无脚蹼
    #change to discrete values
    return dataSet, featureNames

测试一下

myData,myFeatureNames = createDataSet()
print "the old dataset:\n",myData
myEntropy = Entropy(myData)
print "my test entropy should be 0.97095 :\n",myEntrop

在这里插入图片描述

2.2增益率

定义： $\frac{Gain(D,a)}{IV(a)}$
其中 $\Sigma^V_{v = 1}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
称为属性a的“固有值”，属性a可能取值数目越多，则 $I V (a)$ 越大

2.3基尼指数

定义： $\Sigma^V_{v= 1}\frac{|D^v|}{|D|}Gini(D^v)$
其中 $\Sigma^{|y|}_{k=1}{p^2_k}$

3.剪枝

3.1预剪枝

在这里插入图片描述

优点：预剪枝使得决策树的很多分支都没有 " 展开，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销 .
缺点：有些分支的当前划分虽不能提升泛化性能，甚至可能导致泛化性能暂时下 ?但在其基础上进行的后续划分却有可能导致性能显提高 ; 预剪枝基于"贪心 "本质禁止这些分支展开7给预剪枝决策树带来了欠拟含风险。

3.2后剪枝

在这里插入图片描述
后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树 . 但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多 .

4.连续与缺失值

4.1连续值处理

最简单的方法是采取二分法对连续属性进行处理，

候选划分点集合：在区间[ $a_i,a_{i+1})中取任意值所产生的划分结果相同$ ，把区间 $a_i,a_{i+1})$ 中位点 $\frac{a_i+a_{i+1}}{2}$ 作为候选划分点。
$max_{t\in T_a}Gain(D,a,t) =max_{t\in T_a}Ent(D) - \Sigma_{\lambda\in ({-,+})}\frac{|D_t^\lambda|}{|D|}Ent(D_t^\lambda)$