基于阿尔法贝塔剪枝算法的五子棋_C4.5算法剪枝2

最新推荐文章于 2022-07-03 20:16:44 发布

哈云课堂运营官

最新推荐文章于 2022-07-03 20:16:44 发布

阅读量769

点赞数

文章标签：基于阿尔法贝塔剪枝算法的五子棋

本文链接：https://blog.csdn.net/weixin_42556143/article/details/113364258

版权

本文介绍了基于阿尔法贝塔剪枝算法的五子棋决策树剪枝策略，重点讲解了悲观错误剪枝（PEP）和最小错误剪枝（MEP）。PEP利用连续校正公式对训练集误差进行校正，通过比较剪枝前后的错分样本率决定是否剪枝。MEP则通过期望错误率来寻找最佳剪枝方案，以达到在独立数据集上的最小期望错误率。这两种方法在实际应用中展现出较高的精度和效率。

摘要由CSDN通过智能技术生成

作者：柏安之封面：自己想吧

悲观错误剪枝

在讲解悲观剪枝思路的时候，将会运用统计学的相关知识，所以我们将对这部分知识进行粗略的复习，再进行悲观错误剪枝的学习。

首先，我们认为决策树构建期间的错分样本数分布近似于二项分布X~b(n,p)，那么其均值与方差可得：u=np , σ²=npq(其中q=1-p)。若np≥4且nq≥4，二项概率分布p(y)逼近于正态分布，如下图所示：

由上图我们可以看到P(Y≤2)是在正态曲线下Y=2.5的左端面积。只注意到Y=2的左端面积是不合适的，因为它省略了相应于Y=2的的一半概率的长方形。为了修正，用连续概率分布区近似离散概率分布，在计算概率之前我们需要将2增加0.5；值0.5被称为二项概率分布近似的连续性修正因子，因此P(Y≤a)≈P(Za+0.5-np/(npq)^1/2))

后文提到的Quinlan教授引入的“基于二项分布的连续校正公式”基本基于此思想。

悲观错误剪枝是Quinlan在1987年提出，通过比较剪枝前和剪枝后的错分样本率来判断是否进行剪枝。我们需要明确的是，利用C4.5或其他算法构建出来的决策树在对不同测试集进行分类的时候，其错分样本率并不相同。我们之所以剪枝是为了避免过渡拟合或者决策树太过庞大带来的可能产生冗余工作量，而并非为了降低错分样本数。

此外，需要注意的是，PEP的特点是不需要独立的剪枝集，而是既采用训练集来生成决策树又用它来进行剪枝，而是类似于用A来验证A，因此，产生的错分样本率r(t)会偏向于训练集——或者说对准确率的评估“过于乐观”——无法得到最优的剪枝树。为此，需要加上一个惩罚来调节从训练集得到的错误率。Quinlan选择引入了一个基于二项分布的连续校正公式对在训练集中产生的错分样本率进行校正，连续校正后的错分样本率r’(t)=[e(t)+0.5]/n(t)。为计算简单起见，接下来的阐述将采用错分样本数而非错分样本率。

经过连续矫正之后，对节点t进行剪枝产生的错分样本数e’(t)=e(t)+1/2；非剪枝的错分样本数则变为e’(T_t)=∑[e(s)+0.5]，其中s∈{ T_t 子树的所有叶子节点}。进一步，由于误差近似看成是二项式分布，根据u = np, σ²=npq，可引入子树T_t的服从二项分布的标准错误(标准差)即

SE (e’(T_t)) = [e’(T_t)·(n(t) - e(T_t))/ n(t) ]^{1/ 2}

之所以引入标准差是因为我们目前所求的错分样本数(率)只是该训练集在这个决策树模型下的错分样本率，而不是决策树的错分率——我们所做的只是利用某一个或某几个训练集产生的错分样本率对整体进行估计，最终所能得到的是错分样本率在某一置信区间下的置信区间。而我们判断是否进行剪枝，则是根据剪枝之后的新的错分样本数是否满足我们对错分样本数范围的要求，即新错分样本数与规定置信水平的置信区间的上限的大小关系。那么首先，我们需要复习有关置信区间的内容：

设θ'在大样本下服从E(θ') = θ, 标准误差为σ'的正态分布，那么θ在置信度等于(1 - α)的置信区间是：

θ'± Z _α/2 σ'

基于上述思想，我们可以获得根据训练集兼剪枝集估计出的错分样本数的置信区间上限为

e’(T_t)+SE (e’(T_t))

PEP算法采用自顶向下的顺序遍历完全决策树T_max，对每个内部节点t都注意比较其e’(t)与e’(T_t)+SE (e’(T_t))两者间的大小，如满足e’(t)≤e’(T_t)+SE (e’(T_t))，就进行剪枝——删除以t为根节点的子树而以一个叶子节点代之。

PEP方法是存在一些局限性的，但是在实际应用中PEP表现出了较高的精度。此外，PEP方法不需要分离训练集合和验证机和，对于数据量比较少的情况比较有利。而且，因为在剪枝过程中、树中的每颗子树最多需要访问一次，即使是在最坏的情况下，它的计算时间复杂度也只和非剪枝树的非叶子节点数目成线性关系，策略上也比其它方法相比效率更高，速度更快。

最小错误剪枝

Niblett与Bratko在1986年提出该剪枝算法，是利用拉普拉斯(Laplace)概率估计来提高ID3算法在噪声域中的性能,1991年由Cestnik与Bratko利用Bayesian概率估计对MEP进行了改进。

MEP 希望通过剪枝得到一棵相对于独立数据集来说具有最小期望错误率(Expected Error Rate)的决策树。所使用的独立数据集是用来简化对未知样本的错分样本率的估计的,并不意味真正使用了独立的剪枝集 ,实际情况是无论早期版本还是改进版本均只利用了训练集的信息。

定义样本达到节点t且属于第i类的期望概率：P_t=[ n_i(t)+p_aim]/n(t)+m，其中p_ai为由训练集得来的属于第i类的先验概率，m表示先验概率对期望概率p_i(t)的影响程度，为简单起见，认为所有类别的m均相同。

自底向上计算每个内部节点t的期望错误率STE(t)，成为静态错误，当m=k，p_ai=1/k，STE(t)=[e(t)+k-1]/[n(t)+k]；树T_t的期望错误率称为动态错误率DYE(t)，是其子节点的期望错误加权和。MEP自底向上顺序遍历完全决策树并计算STE(t)与DYE(t)，若满足STE(t)≤DYE(t)时则剪枝。

基于错误剪枝

这种算法可以被认为是悲观错误剪枝算法的改进，在剪枝过程中，EBP无需专用的剪枝集，同样将训练集用于生成决策树及修剪决策树。在C4.5算法中，同样会采用这一种剪枝方法。

从概率的角度来看，错分样本率r(t)可看成是n(t)次实验中，某事件发生e(t)次的概率，同时可得到关于错分样本率的一个置信区间[L_CF,U_CF] ,对该置信区间设定一个置信水平CF,该置信区间的上限UCF可通过概率分布P(e(t)/n(t) ≤ U_CF) =CF求得,并用该上限作为对期望错误率的估计。CF值用来控制剪枝,值越高剪枝越少,值越低剪枝越多，在C4.5算法中，默认为0.25 ,并假设错分样本的概率服从二项分布。

EBP算法与PEP算法不同的是EBP算法是自底向上进行剪枝，整体思想大致可分为三步：首先计算叶子节点的错分样本率估计的置信区间的上限；第二部，计算叶子节点的预测错分样本数；第三步，则是判断是否剪枝以及如何剪枝——分别计算三种预测错分样本数: (1) 计算以节点t为根的子树T_t的所有叶节点预测错分样本数之和,记为E₁;(2) 计算子树 T_t被剪枝以叶节点代替时的预测错分样本数,记为E₂;(3)计算子树T₁的最大分支的预测错分样本数,记为E₃。对三个值进行比较,E₂最小时则把子树T_t剪掉并代以一个叶节点;E₃最小时采用“嫁接”(grafting)策略，即用这个最大分枝来替代子树T_t; E₁最小则不进行剪枝。