机器学习实战 第三章 决策树 学习笔记

本文是机器学习实战第三章关于决策树的学习笔记,详细介绍了使用ID3算法构建决策树的过程。通过信息熵和信息增益的概念,解释了如何选择最佳划分特征进行数据分类。以海洋生物是否为鱼类为例,展示了决策树的构建方法及其字典表示形式。
摘要由CSDN通过智能技术生成

机器学习实战 第三章 决策树 学习笔记

    第三章,决策树,主要讲了用ID3这种算法构建出决策树,并将其用于分类的方法。

    原理:假设我们有一些待分类数据,那么可先按特征的某些规律将其一分为二(就成了二叉树,一分为n,就是n叉树),再将其子节点再分,分到不能再分时,训练结束。预测时按照分类的原则去找分支,直到找到叶子节点,叶节点的值就是预测的值。

    那么就会有一个问题:以何种规律来进行每一次划分?书上给出了明确的解答:按照信息熵值,即信息增益值最高的划分方法来划分!

l(xi)=-log2p(xi)#l(xi)即是xi的信息,p(xi)是选到xi的概率

    这里可以多解释一句,假设有[1,2,3,3,3]这么一组5个数,那么选到3的概率就是五分之三,0.6。选到另外两数的概率都是五分之一。

    有了信息的定义,我们就可以算信息增益,也就是熵 了。

H=-[求和:i从1加到n]{p(xi)log2p(xi)}#这里H就是熵,求和符号不好打……

    有了这个公式,我们就能在所有可能的划分情况中找出最优的一种(也就是熵最高的那种)。然后每次都用最优划分来将现有数据分为二叉,一棵二叉树就这么完成了。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值