新手必备 | 机器学习之决策树(五)

决策树

依据特征划分的树状图。决策树包括特征、类别和层数。分别对应非叶子节点、叶子节点和层数。
不同的特征选择(包括顺序和数量)会得到不同的决策树。
决策树的层数直接对应了模型的复杂度。
每个节点尽量只包含一种类别,这种决策树也称为最纯的决策树。
只有一层的决策树,也称为决策树桩(Decision Stump)。

基尼系数

基尼系数(Gini index):
G i n i ( p ) = 2 p ( 1 − p ) Gini(p)=2p(1-p) Gini(p)=2p(1p)
使用基尼系数来判定特征使用的顺序。
其一般形式表示为:

G i n i ( p ) = ∑ i p i ( 1 − p i ) = 1 − ∑ i p i 2 Gini(p)=\sum_{i}p_i(1-p_i)=1-\sum_{i}p_i^2 Gini(p)=ipi(1pi)=1ipi2

其 中 p i 是 各 个 类 别 的 占 比 . 其中p_i是各个类别的占比. pi.

CART 算法

以相邻特征值进行二分的算法就称为 CART 算法(Classification And Regression Tree)。
不光可以对连续的的特征值进行二分,对离散的可以同样的处理。

预剪枝与后减枝

我们可以根据情况设定一个超参数 α \alpha α,在当前节点的基尼系数低于 α \alpha α时,就可以停止划分,防止模型复杂度不断升高。这种对决策树层数的控制就称为剪枝(pruning)。

另一种剪枝策略,设定一个超参数 β \beta β,当划分后收益没有超过 β \beta β就撤回划分.
前面两种算法都是边划分边剪枝,这称为预剪枝(Pre-Pruning)。也可以划分好了之后再去剪枝,这就是后剪枝(Post-Pruning).

预剪枝一旦遇到基尼系数减小较少就不再往下细分,有可能导致后面可能出现的好的划分被忽略掉了,从而造成模型的复杂度太低,最终发生欠拟合。

后剪枝不会出现这样的问题,所以在实际应用中,后剪枝是更常见的。其缺点是计算量较大。

回归树

最终预测的是连续值,则此时的决策树又称为回归树(regression tree)。
分类树已基尼系数来判定划分的合理性,而回归数已差的平方和来判定划分的合理性。
最后预测时,采用平均值来预测。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mrrunsen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值