决策树详解

决策树(ID3、C4.5和CART算法)

决策树是什么

下面主要讨论用与分类的决策树。决策树呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策模型进行分类。

决策树的分类:决策树可以分为两类,主要取决于它目标变量的类型。

  • 离散性决策树:离散性决策树,其目标变量是离散的,如性别:男或女等;
  • 连续性决策树:连续性决策树,其目标变量是连续的,如工资、价格、年龄等;

决策树相关的重要概念:

(1)根结点(Root Node):它表示整个样本集合,并且该节点可以进一步划分成两个或多个子集。

(2)拆分(Splitting):表示将一个结点拆分成多个子集的过程。

(3)决策结点(Decision Node):当一个子结点进一步被拆分成多个子节点时,这个子节点就叫做决策结点。

(4)叶子结点(Leaf/Terminal Node):无法再拆分的结点被称为叶子结点。

(5)剪枝(Pruning):移除决策树中子结点的过程就叫做剪枝,跟拆分过程相反。

(6)分支/子树(Branch/Sub-Tree):一棵决策树的一部分就叫做分支或子树。

(7)父结点和子结点(Paren and Child Node):一个结点被拆分成多个子节点,这个结点就叫做父节点;其拆分后的子结点也叫做子结点。

 

 决策树的构造过程

决策树的构造过程一般分为3个部分,分别是特征选择、决策树生产和决策树裁剪。

  1. 特征选择

特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准,如何选择特征有不同的量化评估方法,从而衍生出不同的决策树,如ID3(通过信息增益选择特征)、C4.5(通过信息增益比选择特征)、CART(通过Gini指数选择特征)等。

目的(准则):使用某特征对数据集划分之后,各数据子集的纯度要比划分钱的数据集D的纯度高(也就是不确定性要比划分前数据集D的不确定性低)

(2)决策树的生成

根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。这个过程实际上就是使用满足划分准则的特征不断的将数据集划分成纯度更高,不确定行更小的子集的过程。对于当前数据集的每一次划分,都希望根据某个特征划分之后的各个子集的纯度更高,不确定性更小。

(3)决策树的裁剪

决策树容易过拟合,一般需要剪枝来缩小树结构规模、缓解过拟合。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在MATLAB中,可以使用fitctree函数生成决策树模型。下面是一个详细的步骤说明: 1. 准备数据:将训练数据保存在一个m×n的矩阵中,其中m是样本数量,n是特征数量。将每个样本的标签保存在一个m维的向量中,表示每个样本的类别。 2. 构建决策树模型:使用fitctree函数来构建决策树模型。该函数的基本语法如下: ```matlab tree = fitctree(data, labels); ``` 这里,data是训练数据矩阵,labels是对应的标签向量。fitctree函数会自动根据训练数据和标签构建出一棵决策树,并返回一个分类器对象tree。 3. 可选:设置决策树模型的参数:fitctree函数支持一些可选参数,可以根据需要进行设置。例如,可以设置最大深度、最小叶子数、分裂准则等。例如: ```matlab tree = fitctree(data, labels, 'MaxDepth', 5, 'MinLeafSize', 10); ``` 4. 可选:使用交叉验证选择最优参数:如果需要选择最优的参数设置,可以使用交叉验证。可以通过创建一个模板,然后使用fitcecoc函数进行交叉验证选择最佳参数。例如: ```matlab t = templateTree('MaxNumSplits', 'all'); tree = fitcecoc(data, labels, 'Learners', t, 'CrossVal', 'on'); ``` 5. 可选:绘制决策树图形:可以使用view函数来可视化生成的决策树模型。例如: ```matlab view(tree, 'Mode', 'graph'); ``` 6. 使用训练好的决策树模型进行预测:将测试数据保存在一个p×n的矩阵中,其中p是测试样本数量,n是特征数量。使用predict函数对测试数据进行分类预测,得到预测结果。例如: ```matlab predictions = predict(tree, testData); ``` 这里,tree是训练好的决策树模型,testData是测试数据矩阵。 通过以上步骤,你可以在MATLAB中生成决策树模型,并用于分类任务。根据具体需求,可以调整参数和参数设置来优化决策树模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值