分类:决策树——树的生长

本文介绍了决策树模型的生长过程,包括如何生成结点、选择最优划分属性以及停止生长的条件。在生长过程中,通过信息熵、增益率和基尼指数等参数评估属性的选择。此外,还探讨了树生长的停止条件,以防止过拟合导致的树结构过于复杂。
摘要由CSDN通过智能技术生成

       分类算法非常适合预测或描述标签为二元或标称类型的数据集,对于标签为序数类型的数据集,分类技术则不太有效,因为分类技术不考虑隐藏在序数中的“序”关系,对于标签其他形式的联系如子类与超类(包含的关系),分类技术也不太适合。 

       本文是分类模型系列的初篇,先介绍最基本的分类/回归模型——决策树模型。决策树分类模型打算分为三篇来说明,第一篇先说明决策树生长,第二篇介绍决策树的剪枝过程,第三篇介绍常用的决策树模型算法。

1.树的生长过程

       决策树的生长一般采用贪心的策略,所有训练样本都会参与到树的生长过程,树生长完成后所有训练样本都能被明确的分类。训练集 D= \left \{ (x_{1},y_{1}),(x_{2},y_{2}),,,(x_{k},y_{k}) \right \}x_{i}表示各样本的属性值,y_{i}表示x_{i}的标签,A=\left \{ a_{1},a_{2},,,a_{n} \right \}表示样本的属性集,则决策树的构建方法如下

  1. 生成结点node                                                                                                                                                       
  2. 若D中所有样本均属于同一类别C,则将结点node标记为叶结点,其类归为类C,返回                                          
  3. 若A为空、或者D中样本在A中属性上取值相同, 则将结点node记为叶节点,其类归为D中样本数最多的类,返回
  4. 若2、3中情况均未出现时,从A中选择一个最优划分属性a_{*},对a_{*}的每一个划分值,为node结点生成一个分支,令D_{v}表示D
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值