决策树(一):基本概念

1.什么是决策树

决策树是一种基本的分类与回归方法,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。

2.特征选择

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树的学习效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大的区别。则称这个特征是没有分类能力的。经验上扔掉这些特征对决策树学习的精度影响不大,通常特征选择的准则是信息增益或信息增益比。

3.信息增益

在信息论与概率统计中,熵是表示随机变量不确定性的度量,设X是一个取有限值的离散随机变量,其概率分布为

                                                              (1)

则随机变量X的熵定义为

                                              (2)

通常,式(1)中的对数以2为底或以e为底,这时熵的单位分别称为比特(bit)或纳特(nat)。由定义可知熵只依赖与X的分布,而与X的取值无关。

信息增益:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即

决策树学习应用信息增益准则选择特征。给定训练数据集D和特征A,经验熵H(D)表示对数据集D进行分类的不确定性,而经验条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性。那么他们的差,即信息增益,就表示由于特征A给定的条件下对数据集D的分类的不确定性减少的程度。显然,对于数据集D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。

4.决策树的生成

4.1 ID3算法

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征,递归的构建决策树。具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点,再对子节点递归的调用以上的方法,构建决策树;直到所有特征的信息增益均很小或者没有特征可以选择为止
算法
输入:训练数据集D,特征集A,阈值e;
输出:决策树T。
1.若D中所有实例属于同一类Ck,则T为单节点树,并将类Ck作为该节点的类标记,返回T;
2.若A=Φ,则T为单节点树,并将D中实例数最大的类Ck作为该节点的类标记,返回T;
3.否则,计算A中各特征对D的信息增益,选择信息增益大的特征Ag;
4.如果Ag的信息整增益小于阈值ε,则置T为单节点树,并将D中实例数量大的类Ck作为该节点的类标记,返回T;
5.否则,对Ag的每一可能值ai,依Ag=ai将D分割为若干非空子集Di,将Di中实例数最大的作为标记,构建子节点,由节点及其子节点构成树T返回T;
6.对第I个子节点,以Di为训练集,以A-{Ag}为特征集,递归的调用1~5步,得到子树Ti,返回Ti。


  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
决策树一种基于树结构进行决策的机器学习算法。其基本原理如下: 假设我们有一个训练集,每个样本都有多个特征和一个标签。决策树的目标就是从训练集中学习一组规则,能够对新的样本进行分类或回归。 决策树的训练过程是递归地将数据集分成多个子集,直到子集中的所有样本属于同一类别或达到某个预定义的停止条件。在每次划分时,决策树都会选择一个最优的特征和一个最优的划分点,使得划分后的子集中样本的纯度最高(即同一子集中的样本类别尽可能相同,不同子集中的样本类别尽可能不同)。 决策树的划分方式有多种,例如ID3、C4.5、CART等。其中ID3和C4.5采用信息增益和信息增益比来选择划分特征,CART采用基尼指数来选择划分特征。对于回归问题,决策树的划分依据通常是最小化均方误差或平均绝对误差。 在实际应用中,决策树的训练过程通常会出现过拟合的问题。为了避免过拟合,可以采用剪枝、正则化等方法来优化决策树。同时,为了提高决策树的泛化能力,还可以采用随机森林、梯度提升决策树等集成学习方法来进行训练。 总结来说,决策树一种基于树结构进行决策的机器学习算法,其核心思想是递归地对数据进行划分,通过选择最优的特征和划分点,来学习一组规则能够对新的样本进行分类或回归。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值