机器学习算法实践——决策树

机器学习算法实践——决策树

决策树的介绍和应用

决策树的介绍

决策树是一种常见的分类模型,在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想
是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先看男
方是否有房产,如果有房产再看是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判
断。在这里插入图片描述
决策树的主要优点:

  1. 具有很好的解释性,模型可以生成可以理解的规则。
  2. 可以发现特征的重要程度。
  3. 模型的计算复杂度较低。

决策树的主要缺点:

  1. 模型容易过拟合,需要采用减枝技术处理。
  2. 不能很好利用连续型特征。
  3. 预测能力有限,无法达到其他强监督模型效果。
  4. 方差较高,数据分布的轻微改变很容易造成树结构完全不同。

决策树构建

输入: 训练集 D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . . , ( x m , y m ) ; D={(x_1 ,y_1 ),(x_2 ,y_2 ),....,(x_m ,y_m )}; D=(x1,y1),(x2,y2),....,(xm,ym);
特征集 A = { a 1 , a 2 , . . . . , a d } A=\{ a_1,a_2 ,....,a_d \} A={ a1,a2,....,ad}

输出: 以node为根节点的一颗决策树

过程:函数TreeGenerate ( D , A ) (D ,A ) (D,A)

  1. 生成节点node
  2. i f if if D 中 样 本 全 书 属 于 同 一 类 别 : D中样本全书属于同一类别 : D:
  3. ----将node标记为 类叶节点;
  4. i f A = 空 集 o r D 中 样 本 在 上 的 取 值 相 同 : if A = 空集 or D中样本在 上的取值相同 : ifA=orD:
  5. ----将node标记为叶节点,其类别标记为 中样本数最多的类; r e t u r n return return
  6. A 中 选 择 最 优 划 分 属 性 a ∗ ; A中选择最优划分属性 a_*; Aa;
  7. f o r a ∗ 的 每 一 个 值 a ∗ v : d o for a_*的每一个值a_*^v :do foraav:do
  8. ----为node生成一个分支, 令 D v 表 示 a ∗ 中 在 上 取 值 为 的 样 本 子 集 ; 令 D_v表示 a_*中在 上取值为 的样本子集; Dva
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值