Coursera - 机器学习技法 - 课程笔记 - Week 10

最新推荐文章于 2024-10-20 19:52:38 发布

支锦铭

最新推荐文章于 2024-10-20 19:52:38 发布

阅读量193

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105926497

版权

141 篇文章 17 订阅

订阅专栏

Random Forest

Bagging：通过投票降低方差
DT：建树过程严重依赖数据——较大的方差
随机森林：bagging + 完全生成CART
- 使用bootstraping方法抽取数据集
- 利用这样的数据集建立多棵决策树
- 决策树结果投票决定最终结果
可以平行化学习：十分高效
继承下来CART的优势，并缓解了CART的高方差问题
类比数据的随机性带来的模型多样化：
- 特征的随机性——随机选择 $d^\prime$ 个特征
- 一般情况下 $d^\prime \ll d$ ，更加高效
RF中，每一次分支确定，都可以随机挑选一个特征子集
进一步的增强：随机选择并线性组合若干特征（投影）

$\left( 1 - \frac 1 N \right)^N \approx \frac 1 e$

因此数据集中OOB的数据量大约为 $\frac 1 e N$
类似Validation：这些OOB样本可以用来评估性能
- 但是实际针对badding，验证 $g_t$ 没有太大意义
- 但是可以用来验证 $G$ ？
- 可以验证 $G^-$ ： $\bold x_n$ 作为OOB样本的若分类器集合： $G_n^- (\bold x ) = \operatorname{avg}(g_1, \ldots, g_k)$

$E_{OOB}(G) = \frac 1N \sum_{n = 1}^N \operatorname{err}(y_n, G_N^-(\bold x_n))$

希望去除的特征
- 冗余特征
- 任务无关特征
特征选择的优势
- 高效
- 泛化性强——去除了大量的特征噪声
- 可解释性更强
劣势
- 选择过程的计算消耗（组合问题）
- 容易过拟合
- 可能导致的错误解释（关联而非因果）
决策树实际上是内建了特征选择过程
重要性选择：
- 按照重要性排序，取最大的若干特征作为目标特征子集
- 线性模型：可以使用绝对值最大的若干特征，即 $\operatorname{importance}(i) = |w_i|$
- 非线性模型？比较麻烦
置换测试：
- 如果一个特征很重要：替换一个随机值会很明显地降低性能
- 随机值：将数据顺序随机打乱（不改变数据的分布情况）
- 重要性即置换前后的性能变化差异（置换后需要重新训练和验证）
- 对RF：直接使用OOB误差进行比较，省去了验证过程 $\operatorname{importance}(i) = E_{oob}(G) - E_{oob}(G^p)$
- 简化训练： $\operatorname{importance}(i) = E_{oob}(G) - E_{oob}^p(G)$
  - 对OOB的值进行置换