机器学习实战之决策树

本文深入探讨了决策树的学习过程,包括信息熵、信息增益、信息增益率和基尼指数等关键概念。介绍了ID3算法的决策树构建步骤,并提供了实践中的数据处理和递归构建决策树的方法。最后,以《机器学习实战》中的案例数据验证了决策树的构建过程。
摘要由CSDN通过智能技术生成

简介:

决策树是一类常见的机器学习方法,以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新数据进行分类,比如通过一组数据通过模型训练得到以下的决策树:

理论:

决策树学习的关键是如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。

1、信息熵

熵定义为信息的期望值,在明晰这个概念之前,我们必须知道信息的定义。如果待分类的事
务可能划分在多个分类之中,则符号 xi 的信息定义为

l(i)=log2pi

其中 pi 是当前样本集合D中第i类样本所占的比例。

为了计算熵,我们需要计算所有类别所有可能值包含的信息期望值,通过下面的公式得到:

H=ni=1pilog2pi

其中n是分类的数目,H的值越小,则数据纯度越高。

2、信息增益

假定当前样本集D按照属性a来分类,a的属性取值有 (a1,a2,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值