Coursera - 机器学习技法 - 课程笔记 - Week 9

最新推荐文章于 2024-08-18 19:53:43 发布

支锦铭

最新推荐文章于 2024-08-18 19:53:43 发布

阅读量158

点赞数

分类专栏： Cousera-课程笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/cary_leo/article/details/105926491

版权

141 篇文章 17 订阅

订阅专栏

Decision Tree

$G(\bold x) = \sum_t q_t(\bold x) g_t(\bold x)$

其中，
- $g_t(\bold x)$ 为基本的假设，位于路径 $t$ 的叶子节点，是一个常数
- $q_t(\bold x)$ 为条件，表示 $\bold x$ 是否在路径 $t$ 上
决策树中包含简单的决策节点
路径的视角的定义：

$G(\bold x) = \sum_t [[\bold x \text{ on path } t]] \cdot \operatorname{leaf}_t(\bold x)$

$G(\bold x) = \sum_c [[b(\bold x) = c]] \cdot G_c(\bold x)$

由递归定义得到算法（未指明终止条件，否则返回基本假设 $g_t(\bold x)$ ）
1. 学习分支确定 $b(\bold x)$ （最小分支误差）
2. 按照分支将数据进行分割，得到 $\mathcal D_c$
3. 使用 $\mathcal D_c$ 建立子树
4. 返回最终模型： $G(\bold x) = \sum_c [[b(\bold x) = c]] \cdot G_c(\bold x)$
CART：
- 二叉树
- 叶子节点 $g_t(\bold x)$ 是一个常数
  - 反应最佳 $E_{in}$
  - 分类：最多的 $y_n$
  - 回归： $y_n$ 的平均
- 内部决策节点使用决策桩切分
- 通过纯化程度决定分支
- 纯度分析（下述为不纯度）：
  - 对回归任务，定义误差为 $\frac 1N \sum_n (y_n - \bar y)^2$ ，其中 $\bar y$ 表示分支内所有 $y_n$ 的平均
  - 对分类任务，定义误差为 $\frac 1N \sum_n [[y_n \neq y^\ast]]$ ，其中 $y^\ast$ 表示分支内占多数的 $y_n$
- 对于分类，上述定义的误差（不纯度）只考虑了占多数的类别，应当考虑所有类别，因此定义Gini系数： $\sum_k \left( \frac {\sum_n[[y_n = k]]}{N}\right)^2$
- 终止条件
  - 不纯度为0——当前分支所有标签都一样
  - 所有的样本特征都一样——无法进行决策桩算法
  - 上述两种均为被迫中止的情形——完全生成树——依据纯度生成的二叉树，其叶子数目为常数

易于从二分类扩展为多分类
对于完全生成的CART：如果 $\bold x_n$ 都不同，那么必然有 $E_{in}(G) = 0$
- 这样就会有非常大的过拟合风险——低阶子树都是根据一些非常小的 $\mathcal D_c$ 建立的
需要一个正则化项，比如限制叶子节点的数量 $\Omega(G)$
目标改进： $\arg\min_G E_{in}(G) + \lambda \Omega(G)$
- 被剪枝的决策树
- $\lambda$ 的选择——Validation
对 $G$ 很难进行枚举
- 首先建立一个完全生成树
- 不断地递归，每一次减去所有可剪去分支中 $E_in(G)$ 最小的
对于数值特征，我们可以直接使用数值的决策桩算法： $b(\bold x) = [[x_i \le \theta]] + 1$
对于类别特征，使用抓门的决策桩算法（子集划分）： $b(\bold x) = [[x_i \in S]] + 1$
包括CART在内的决策树可以很好地处理类别特征
如果预测的时候，一些特征值丢失？
- 替代分支，与丢失特征的切割类似

关注

专栏目录