决策树算法

本文介绍了决策树算法的发展历史、基本原理及优化方法。Hunt算法是决策树的基础,用于创建ID3、C4.5和CART等。决策树通过信息增益、增益率和基尼指数选择最佳划分属性,C4.5使用增益率,CART采用基尼指数。剪枝是防止过拟合的重要手段,包括预剪枝和后剪枝。随机森林作为决策树的扩展,引入随机属性选择,提高模型的稳定性和准确性。
摘要由CSDN通过智能技术生成

决策树的起源:

1、最早的决策树算法是由Hunt等人于1966年提出,Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART等

2、Hunt算法通过将训练记录相继划分为较纯的子集,以递归方式建立决策树。设Dt是与结点t相关联的训练记录集,而y = { y1, y2, …, yc}为类标号

3、Hunt算法的递归定义如下:

(1)如果Dt中所有的记录都属于同一个类yt,则结点t是叶子结点,用yt标记;

(2)如果Dt中包含多个类的记录,则选择一个属性测试条件,将记录划分为较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中,然后对每个子女结点递归地调用该算法;

决策树的概述:

  1. 一般,一棵决策树包含一个根节点,若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定的测试序列。决策树学习的目的是产生一棵泛化能力强,即处理未见示例强的决策树。
  2. 决策树示意图如下:  椭圆-----内部结点即划分属性  方框----叶子节点即分类后的样本
  3.  
     

     

决策树的划分选择

  1. 信息增益

        信息熵:当前样本集合D中第k类样本所占的比例为pk

     

        信息熵的值越小,则D的纯度越高

        信息增益:一般而言,信息增益越大,意味着使用属性a来进行划

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值