机器学习之决策树学习笔记

本文介绍了决策树的基本结构和构造过程,重点讲解了熵的概念及其在决策树构建中的作用,包括熵的计算公式和信息增益的计算方法。通过实例展示了如何选择最佳分割属性,并提到了使用信息增益率避免无关属性的影响。同时,文章还提及了决策树的评价函数和优化策略,如预剪枝和后剪枝。
摘要由CSDN通过智能技术生成

决策树

一颗决策树重要组成部分,分为根节点、非叶子节点,叶子节点,分支。
根节点:第一个节点
非叶子节点(决策点):代表测试的节点,对数据属性的测试
分支:代表测试的条件
叶子节点:代表分类后所获得的分类标记,最后的结果

决策树的构造过程:

构造决策树的过程分为训练阶段和测试阶段;训练阶段需要从给定的训练集数据中构造一颗决策树;测试阶段是将测试数据在构造出的决策树上进行测试。
那重点问题就来了,如果要构造一颗决策树,那决策树中的根节点如何进行确定呢?

衡量标准–熵

熵代表一个物体内部的混乱程度,对应到我们的数据中就是数据的混乱程度,如果数据越纯,混乱程度就越小,熵值越小;如果数据越杂乱,混乱程度就越大,熵值越大。熵值的大小就代表不确定性越大。

熵的公式

pi为
pi为i的概率
数据集A={1,1,1,1,1,1,2,2,2,3},出现1的概率是6/10,2的概率是3/10,3的概率是1/10,根据熵的计算公式:
在这里插入图片描述
A数据

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值