白话机器学习算法(十八)决策树

前面说了条件熵,对于AB两个变量,我们知道了B便可以缩小A的范围,B能给我们减少A的不确定性;

决策树就是这样一种规则,当我知道了向量的所有属性的时候,他的类别就确定了,每多知道一个属性,这个向量的所属范围便缩小一部分。

“决策树学习本质上是从训练数据集中归纳出一组分类规则,与训练数据集不相矛盾的决策树可能有多个,也可能一个都没有,我们需要找的是一个与训练数据矛盾较小的决策树,同时具有很好的泛化能力。”摘自《统计学习方法》

决策树主要分为三个步骤:

1)属性选择

2)节点生成

3)剪枝

在属性选择方面,主要有信息增益,与信息增益比

信息增益:

H(D)-H(D|A)表示在知道A以后,D的熵减少的量;

g(D , A)=H(D) - H(D|A)

用这种方法,存在选取那些取值较多的特征,为什么?最直观的解释是,当A的取值范围较多,每个取值对应的空间便很小,当知道了A的取值,那么便将整个搜索空间压缩到了一个很小的范围内去确定数据最后的分类,也就是知道A的值最能减少D的不确定性;  

为改进这个问题提出了信息增益比

信息增益比:

我们知道一个分布便对应一个熵,一个分类号,一个属性都可以对应一个熵

g(D , A)/ H(A)  = 信息增益比

当H(A)比较大,即A属性的取值较多,会使得信息增益比降低,这相当于一个正则因子,抑制选取“选取那些取值较多的特征”这样一个趋势;


ID3即选择信息增益作为节点选择的依据,而C4.5选择信息增益比;


决策树的核心除了属性选择,便是剪枝了!

当训练集合相容的时候,即训练集合中没有矛盾项,那么训练出的决策树在训练集中可以有很高的正确率,但是随着树的复杂度增加,树的泛化性便变弱,复杂性与泛化性总是一对矛盾体,在SVM中便有正则化因子来抑制模型的复杂度,以达到较好的泛化性;

决策树也是这么做的,在误差选项上加上一个正则因子:叶子节点数目(叶子节点越多说明树越复杂),利用动态规划的方法寻找在  决策误差与模型复杂度之间的最佳权衡;

决策误差与叶子节点(模型复杂度)之间是个矛盾的关系,决策误差小了,那么模型复杂度会上升,反之也是,通过调节正则化参数的系数,系数越大说明你越看重模型的泛化性,系数为0说明你只看重训练集上的正确率;

程序中通过从下到上剪枝,剪枝以后模型复杂度降低,但是误差上升,通过比较剪枝前后,总误差函数的大小决定是否剪枝;



  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
决策树算法是数据挖掘中应用最广的归纳推理算法之一,其构造不需要任何领域知识或参数设置,适合于探测式知识发现。决策树算法具有结构清晰、运行速度快、准确性高以及更好的灵活性和鲁棒性,可以用于处理高维数据,其获取的知识是直观的且容易被人理解。目前决策树算法已经被广泛的应用于医学、制造和生产、金融分析、天文学、分子生物学以及遥感影像分类等领域。 法和boosting推进技术研究的基础上,以BoostTree算法为基础,通过算法改进,构建了AdaTree.WL算法。然后以该算法为基础研发了决策树遥感影像分类系统。依托该系统分别对Landsat ETM+和WorldView-2影像进行了基于像元和面向对象分类,并与其它分类算法进行了比较。主要研究内容和成果如下: (1) 通过对多种决策树算法的研究、比较和分析,以复合决策树BoostTree思想为基础,首先根据遥感影像分类的特点,构造了新的单棵决策树生成算法,该算法可以看作是对C4.5算法的改进;然后改进了AdaBoost算法与决策树的结合方式以及最终的预测函数,最终构造了本文中的组合决策树算法AdaTree.WL,并利用该算法设计实现了GLC树分类器。 (2) 分析总结了当下流行的遥感影像分类方法,根据遥感影像分类原理,将上述决策树算法成功应用于基于像元和面向对象两种遥感影像分类方法中,并进行了相应的软件设计与实现。该软件不仅实现了基于像元的遥感影像分类,并且可以在获得影像分割的基础上,实现对分割结果的自动分类,克服了以往利用决策树进行遥感影像分类时依赖现有数据挖掘软件的问题。 决策树分类器的实现及在遥感影像分类中的应用 - II - (3) 利用Landsat7 ETM+影像和WorldView-2影像分别进行了基于像元和面向对象分类实验。试验中,分别将本文所构建的AdaTree.WL算法同BoostTree、C5.0决策树算法,以及支持向量机分类算法进行了比较。实验表明,本文构造的决策树分类算法在分类精度上与C5.0算法在伯仲之间,并优于上述其它算法,平均Kappa系数分别达到0.9052和0.9398。同时利用AdaTree.WL算法进行遥感影像分类,可以通过计算特征贡献度的方式对参与分类的特征进行筛选,提高分类效率。
白话机器学习的数学 pdf》这本书是一本介绍机器学习数学基础的白话解说书籍。通过白话的语言风格,作者将抽象的数学概念和机器学习算法解释得浅显易懂,使读者能够更容易地理解和应用这些数学原理。 在机器学习中,数学是一门核心学科,很多算法和模型的原理都依赖于数学。这本书旨在帮助读者掌握机器学习中所需的数学知识,从而更好地理解算法背后的原理和实现方法。 本书首先介绍了基本的线性代数概念,如向量、矩阵、矩阵运算等。这些是机器学习中常用的数学工具,例如,数据预处理、特征工程和模型训练中常用的矩阵运算都可以通过线性代数进行描述和处理。 接着,本书介绍了概率与统计的基本概念和方法。机器学习领域的很多问题都可以通过概率统计的方法来解决,例如,分类、回归、聚类等。概率论和统计学的知识对于理解这些算法的原理和性能分析非常重要。 最后,本书还介绍了一些常用的机器学习算法,并详细解释了它们的数学原理和推导过程。例如,线性回归、逻辑回归、支持向量机、决策树等算法都有详细的数学解释,并给出了相应的算法实现示例。 总之,这本书是一本适合初学者入门的机器学习数学基础书籍,通过白话的讲解方式,使读者能够更轻松地理解和应用机器学习中的数学知识。无论是对于学术研究还是实际应用,掌握机器学习的数学基础都是非常重要的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值