决策树的剪枝策略

最新推荐文章于 2024-06-29 23:57:20 发布

pease2014

最新推荐文章于 2024-06-29 23:57:20 发布

阅读量1.5k

点赞数

分类专栏：机器学习与数据挖掘文章标签：决策树 ID3 算法剪枝策略

本文链接：https://blog.csdn.net/pease2014/article/details/43154451

版权

本文探讨了决策树剪枝的重要性，旨在解决过拟合问题。预剪枝包括树高度限制、训练样本限制、系统性能增益和纯度限制四种策略；后剪枝通过不同算法如降低错误剪枝、悲观错误剪枝等实现，具有更广泛应用。这两种方法通过控制树的复杂度，提高模型泛化能力。

摘要由CSDN通过智能技术生成

决策树剪枝的目的去除训练树的过拟合问题，以维持树合理的深度及广度。按照剪枝的时段分可分为预剪枝及后剪枝。预剪枝是在树的生长时提前停止树的生长，后剪枝是在决策树生长完成后根据分枝节点的误差进行剪枝。

不管是预剪枝还是后剪枝，在代码实现时，一个关键点是记录下节点的相关信息，包括到达该节点的训练样本数、当该节点作为叶子节点时的判定类别、错误样本数、节点的信息熵等。在此，首先定义节点类：

//节点名称
	public String name;
	//节点深度
	public int lever;
	//节点分割属性
	public String attStr;
	public String splitStr;
	//分割属性对应的属性索引
	public int att_index;
	//属性值类型 1:连续型 2：离散型
	public int attValueType;
	//分割属性取值点
	public String attVal;//离散型
	public double con_attVal;//连续型
	//与分割属性取值的关系 1：大于，2：等于，3小于，4大于等于，5小于等于,0根节点
	public int attType;
	//节点样本数
	public int    sampleCount;
	//错误标签样本数
	public int    lossCount;
	//节点标签
	public String yVal;
	//标签分布概率
	public double[] yprob;
	public Vector<String> yprobName;
	//是否叶子节点
	public int    terminalNode;
	//节点熵
	public double entropyVal;
	//基于误差剪枝 EBP
	public double ebp_val;
	
	public Vector<Node>