机器学习笔记-决策树

本文介绍了决策树的基本概念,包括ID3算法的工作流程、如何选择最佳属性以及停止分裂的条件。讨论了过拟合问题,提出了预剪枝和后剪枝两种防止过拟合的策略,并解释了在现实场景中如何处理连续属性和过多取值属性的问题。
摘要由CSDN通过智能技术生成

决策树学习

学堂在线机器学习笔记

什么是决策树

决策树基本上就是把我们以前的经验总结出来。我给你准备了一个享受运动的训练集。如果我们要出门进行体育活动,一般会根据“天气”、“温度”、“湿度”、“风”这几个条件来判断,最后得到结果:去运动?还是不去?

适用于决策树学习的经典目标问题

  •  带有非数值特征的分类问题
  •  离散特征
  •  没有相似度概念 (比如天气,阴天跟雨天跟接近还是阴天跟有雾更接近,没有明确的可度量方式)
  •  特征无序 (比如男性,女性 ,不能说男性群体>女性群体)

样本表示

  •  属性的列表而非数值向量

 例如享受运动的例子:

 6值属性:天气、温度、湿度、风、水温、预测天气

 某一天的天气实例:{晴、暖、一般、强、暖、不变} 

决策树-概念

经典决策树算法

经典决策树算法-ID3 流程

  • 自顶向下,贪心搜索
  • 递归算法 • 核心循环:
  1. A :下一步 最佳 决策属性
  2. 将 A 作为当前节点决策属性
  3. 对属性A (vi )的每个值,创建与其对应的新的子节点
  4. 根据属性值将训练样本分配到各个节点
  5. 如果 训练样本被完美分类,则退出循环,否则继续 下探分裂新的叶节点

这里要解决2个问题:哪个属性是最佳属性?何时返回(停止分裂)?

第一个问题:

属性选择和节点混杂度(Impurity)

  •  基本原则: 简洁 —— 我们偏向于使用简
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值