决策树介绍

决策树是一种基于特征的分类模型,通过选择最优特征进行数据划分。本文介绍了决策树的基本概念、特征选择(信息增益、信息增益比、基尼指数)以及决策树生成(ID3、C4.5算法)。此外,还讨论了防止过拟合的剪枝技术,包括预剪枝和后剪枝策略。
摘要由CSDN通过智能技术生成

      决策树是一种基本的分类与回归方法(此处以分类为例),它可以认为是定义在特征空间与类空间的条件概率分布,决策树思想,实际上就是寻找最纯净的划分方法。决策树模型不同于线性模型,线性模型是所有特征赋予不同的权值相加得到结果,而决策树则是单个特征进行处理,每一步寻找一个最优特征进行划分。决策树与逻辑回归的不同之处也在于此,逻辑回归是根据所有特征求出概率,然后与某一阈值进行比较从而分类,而决策树每一步是通过最优特征进行划分,直到叶节点。决策树的学习过程主要包括3个步骤:特征选择、决策树的生成和决策树的剪枝。常用的算法有ID3算法、C4.5算法以及CART算法。后面会一一介绍这些算法。

1.决策树模型

       决策树定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。

       下图是一个简单的决策树,用来判断西瓜的好坏。这里只列举了简单的两个属性:色泽={灰白,浅绿},敲声={浊响,清脆}。其中,圆为内部结点,矩形为叶结点。整个判断流程是:首先看色泽,如果是灰白,则为坏瓜,如果是浅绿,则继续判断敲声,如果是浊响,则是好瓜,清脆则为坏瓜。

  

      决策树的根节点到叶节点的每一条路径构建一条规则;路径内部节点的特征对应着规则的条件,而叶节点的类对应着规则的结论。决策树学习算法通常是递归的选择最优特征,并根据该特征对训练数据进行分割,使得对各个子集数据有一个最好的分类结果。这一过程对应着特征空间的划分,也对应着决策树的构建。开始,构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个当前条件下的最好分类。如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分到对应的叶节点中去;如果还有子集不能被正确分类,那么就对这些子集继续选择最优特征,继续对其进行分割,构建相应的节点。如此递归下去,直到所有训练数据子集都被基本正确分类或者没有合适的特征为止。最后每个子集都有相应的类,这就生成了一颗决策树。

       以上方法生成的决策树很有可能发生过拟合,所以我们需要对决策树进行剪枝处理,使决策树变的简单,从而具有更好的泛化能力。

2.特征选择

       特征选择就是决定用哪个特征来划分特征空间。前面说过,决策树的思想实际上就是选择最纯净的划分方法,即选择最优的特征来得到最好的划分。那么,如何进行特征选择呢?特征选择的准则通常是信息增

  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值