机器学习算法系列(三):决策树分类模型

1.分类决策树介绍:

决策树是树模型的基础形式。它包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果(分为多少类就有多少个子节点)。决策树学习的目的在于产生一颗泛化能力强的决策树。

决策树的优点:(1):直观易理解,符合人认知事物的过程。(2)应用范围广,分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限制。一般还会通过限制树的高度,或者叶子节点上样本的数量来防止过拟合。

2.决策树停止的三种情况:

  • 当前节点所包含的所有样本都属于同一类,无需再划分。
  • 当前节点上所有属性的值都相同,不能再划分。此时将 类别设置为当前节点上所含样本最多的类别。
  • 当前节点包含的样本集为空,无法划分。此时将类别设置为当前节点父节点上所含样本最多的类别。

3.划分方法

依照划分方法的不同,分为三种算法,ID3,C4.5,CART。根本问题在于如何选择最优的划分属性。进一步理解就是说经过这个节点划分后的节点纯度达到最高。

3.1 ID3算法

该算法依据信息增益计算。

信息熵计算: E n t ( D ) = − ∑ k = 1 y p k l o g 2 p k Ent(D)=-\sum_{k=1}^{y}p_klog_2p_k Ent(D)=k=1ypklog2pk

其中p_k代表当前样本中第k类样本所占的比例。Ent(D)的值越小,则D的纯度越高

假设利用属性a进行分类,a有v个分支节点。其中每个分支节点上的样本数目为 D v D^v Dv。这样就可以在每个分支节点上计算出信息熵。然后给每个分支节点赋予权重 D v D \frac{D^v}{D} DDv,即节点上样本数目越多,则该节点的权重越大。这样就可以得到划分后的信息熵

∑ v = 1 V

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值