DataWhale机器学习——第四章决策树学习笔记

第四章 决策树

4.1 基本流程 决策树是一种递归地将数据集分成更小子集的分类和回归模型。基本流程包括:

  1. 选择最佳划分属性:通过信息增益、增益率或基尼指数等指标选择最优划分属性。
  2. 划分数据集:根据选定的属性将数据集划分成若干子集。
  3. 递归构建子树:对子集重复上述过程,直到满足停止条件,如所有样本属于同一类别或无法继续划分。
  4. 生成决策节点和叶节点:生成包含属性测试条件的决策节点和表示类别的叶节点。

4.2 划分选择 选择划分属性的主要标准有:

  1. 信息增益:基于熵的减少量。
  2. 增益率:信息增益与属性固有值的比值。
  3. 基尼指数:用于评估数据集的不纯度。

4.3 剪枝处理 剪枝是减少决策树过拟合的一种技术。包括:

  1. 预剪枝:在生成决策树过程中提前停止划分。
  2. 后剪枝:生成完全决策树后,移除不必要的分支。

4.4 连续与缺失值 处理连续属性和缺失值的策略:

  1. 连续属性:将连续值离散化,通常采用二分法。
  2. 缺失值:通过样本的权重或替代值进行处理。

4.5 多变量决策树 多变量决策树使用多个属性的组合进行划分,提高了模型的灵活性和预测性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值