Weka算法Classifier-trees-REPTree源码分析（二）

最新推荐文章于 2024-05-19 23:41:52 发布

ROger__Wong

最新推荐文章于 2024-05-19 23:41:52 发布

阅读量5.4k

点赞数

分类专栏： Weka算法及源码分析文章标签：机器学习分类器 Weka 算法源码

本文链接：https://blog.csdn.net/ROger__wonG/article/details/39456425

版权

本文深入分析了Weka中REPTree算法的剪枝过程，包括reducedErrorPrune和backfitHoldOutSet。同时，对比了REPTree与J48的区别，如排序处理、递归退出条件、节点选择策略以及剪枝与backfit策略。REPTree在时间和空间上存在权衡，使用信息增益而非信息增益率，并具有backfit防止过拟合。

摘要由CSDN通过智能技术生成

（接上篇）

一、剪枝过程

上篇分析完了tree节点的构建过程，在REPTree.buildClassifier之后如果设置了剪枝选项，则还有一个剪枝和backfit过程。

    if (!m_NoPruning) {
      m_Tree.insertHoldOutSet(prune);
      m_Tree.reducedErrorPrune();
      m_Tree.backfitHoldOutSet();
    }

其中insertHoldOutSet就是把剪枝用到的数据集传进去，不具体的区跟代码了。

重点卡一下reducedErrorPrune和backfitHoldOutSet过程。

二、Tree.reducedErrorPrune

    protected double reducedErrorPrune() throws Exception {
<span style="white-space:pre">	</span>//这个函数会返回该树及其子树的一个错误情况，如果是枚举类型返回的是分错的instance数量，数值类型返回的是与正确值的偏差的平方和
      // 如果是叶子节点就不做任何操作
      if (m_Attribute == -1) {
	return m_HoldOutError;//简单的说一下这个error怎么计算来的，使用<span style="font-size:18px;">insertHoldOutSet传入数据时会根据原先训练时的分布，来预测出传入数据的class，然后根据这个结果和真正的class值进行比对，就知道是否分的正确了</span>
      }

      //计算一下所有的子树的偏差
      double errorTree = 0;
      for (int i = 0; i < m_Successors.length; i++) {
	errorTree += m_Successors[i].reducedErrorPrune();
      }

      if (errorTree >= m_HoldOutError) {
	m_Attribute = -1;//如果子树偏差大于本身的偏差，那子树就没啥存在的意义了，直接去掉。
	m_Successors = null;
	return m_HoldOutError;
      } else {
	return errorTree;
      }
    }

可以看出，这个剪枝过程和J48相比还是简单不