机器学习笔记--常见算法(2)--决策树算法介绍

本文介绍了决策树算法,包括其作为分类和回归模型的用途、决策树的结构和生成过程、特征选择标准如信息增益、信息增益比和Gini系数,以及决策树的剪枝方法。讨论了预剪枝和后剪枝的优缺点,并简述了连续值处理和缺失值处理策略。
摘要由CSDN通过智能技术生成

1.决策树简介

决策树:既能做分类,又能做回归

决策树模型是一种传统的算法,决策树实际上就是在模仿人类做决策的过程。

可以从两个方面来理解决策树:

(1)Aggregation model

Aggregation model:aggregation的核心就是将许多可供选择使用的比较好的hypothesis融合起来,利用集体的智慧组合成G,使其得到更好的机器学习预测模型。

决策树的整个流程类似一个树状结构。如图:
在这里插入图片描述
把这种树状结构对应到一个hypothesis G(x)中,G(x)的表达式为:

G ( x ) = ∑ t = 1 T q t ( x ) ⋅ g t ( x ) G(x)=\sum_{t=1}^Tq_t(x)\cdot g_t(x) G(x)=t=1Tqt(x)gt(x)

G(x)由许多 g t ( x ) g_t(x) gt(x)组成,即aggregation的做法。每个 g t ( x ) g_t(x) gt(x)就代表上图中的蓝色圆圈(树的叶子)。这里的 g t ( x ) g_t(x) gt(x)是常数,因为是处理简单的classification问题。我们把这些 g t ( x ) g_t(x) gt(x)称为base hypothesis。 q t ( x ) q_t(x) qt(x)表示每个 g t ( x ) g_t(x) gt(x)成立的条件,代表上图中橘色箭头的部分。不同的 g t ( x ) g_t(x) gt(x)对应于不同的 q t ( x ) q_t(x) qt(x),即从树的根部到顶端叶子的路径不同。图中中的菱形代表每个简单的节点。所以,这些base hypothesis和conditions就构成了整个G(x)的形式,就像一棵树一样,从根部到顶端所有的叶子都安全映射到上述公式上去了。

(2)条件分支的思想

将整体G(x)分成若干个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值