机器学习经典算法之集成学习

最新推荐文章于 2024-04-25 23:12:42 发布

啦啦啦12345678900000000

最新推荐文章于 2024-04-25 23:12:42 发布

阅读量531

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/ZHANGJING199402/article/details/105164796

版权

集成学习（bagging boosting）

bagging并行

基学习器不同，在相同的训练集上进行学习；基学习器相同，在训练集的子集上进行训练，若采样过程为有放回采样，则为bagging(bootstrap aggregating)；若为无放回采样，则为pasting，即bagging允许训练实例被一个预测器多次采样。

bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练。为了让基分类器间相互独立，将训练集分为若干子集（若训练样本过少，可利用采样），每个基分类器分别进行单独学习，学习的内容可以相同，也可以不同，也可以部分重叠，最终决策时，每个个体单独做出判断，再通过投票的方式做出最后的决策。
可见，Bagging是通过减小方差来达到提高性能的。投票又分为两种方法，一种为硬投票，即大多数投票，一种为软投票，如果所有分类器都能给出类别的概率，给出平均概率最高的类别作为预测，通常来说，软投票比硬投票更优。

bagging中，最著名的就是基于决策树基分类器的随机森林（Random Forest）,随机森林在树的生长上引入了更多的随机性：分裂节点时不再是搜索最好的特征，而是在一个随机生成的特征子集里搜索最好的特征，这导致决策树具有更大的多样性，（再一次）用更高的偏差换取更低的方差。更极端一点，如果我们对每个特征使用随机阈值，而不是搜索得出的最佳阈值，则可以让决策树长得更随机，以更高的偏差换取更低得方差，这叫极端随机树。

boosting串行

boosting通过减小偏差来提高性能，因为前后的基学习器强相关，因此不能有效降低方差。

Adaboost

Adaboost的核心思想是提高那些被前一轮弱分类器分类错误的样本的权值，降低那些被分类正确的样本的权值，最终结果使用加权多数表决法，即加大分类错误率小的弱分类器的权重，减小那些分类错误率大的弱分类器的权值。

算法步骤：

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in \mathcal X \subseteq R^n,y_i\in\mathcal Y=\{-1,+1\}$ ；弱学习算法；

输出：最终分类器 $G (X)$

(1).初始化训练数据得权值分布 $D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,\cdots,N$

(2).对 $m=1,2,\cdots,M$

(a).使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器 $G_m(x):\mathcal X\rightarrow \{-1,+1\}$

(b).计算 $G_m(x)$ 在训练数据集上的分类误差率 $e_m=\sum_{i=1}^NP(G_m(x_i)\neq y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)$ ,由此可得， $G_m(x)$ 在加权的训练数据集上的分类误差率是被 $G_m(x)$ 误分类样本的权值之和。

(d).更新训练数据集的权值分布 $D_{m+1}=(w_{m+1,1},w_{m+1,2},\cdots,w_{m+1,N})$

最低0.47元/天解锁文章

啦啦啦12345678900000000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习经典算法之集成学习

集成学习（bagging boosting）bagging并行基学习器不同，在相同的训练集上进行学习；基学习器相同，在训练集的子集上进行训练，若采样过程为有放回采样，则为bagging(bootstrap aggregating)；若为无放回采样，则为pasting，即bagging允许训练实例被一个预测器多次采样。bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练。为...
复制链接

扫一扫