Day09-集成学习-机器学习-Adaboost算法(DataWhale)

最新推荐文章于 2024-06-18 21:40:11 发布

liying_tt

最新推荐文章于 2024-06-18 21:40:11 发布

阅读量169

点赞数 1

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/liying_tt/article/details/115874856

版权

Adaboost是一种Boosting方法，通过改变训练数据集权重，连续训练弱分类器并组合，形成强分类器。算法核心包括调整错误分类样本权重和加权多数表决。文章详细介绍了Adaboost的原理、案例及在Python中的实现，展示了其在提高分类性能和防止过拟合上的优势。

摘要由CSDN通过智能技术生成

三、Boosting方法

Boosting方法是使用同一组数据集进行反复的学习，得到一系列简单模型，然后组合这些模型构成一个预测性能十分强大的学习模型。
Boosting方法是通过不断减小偏差的形式，而Bagging是通过降低方差的方法。
大部分Boosting方法是通过改变训练数据集的概率分布(训练数据不同样本的权值)，针对不同概率分布的数据调用弱分算法学习一系列的弱分类器
Boosting解决两个问题：(1)每一轮学习如何改变数据的概率分布；(2)如何将各个弱分类器组合起来。

3.1 Adaboost算法

原理

解决上述两个问题的方式：

针对1，提高被前一轮分类器错误分类的样本的权重，降低被正确分类的样本的权重，在上一轮分类器中没得到正确分类的样本，由于权重的增大在后一轮的训练中"备受关注"
针对2，各个弱分类器的组合通过采取加权多数表决的方式，加大分类错误率低的弱分类器的权重，减小分类错误率较大的弱分类器的权重。

推导

假设给定一个二分类的训练数据集：
$T = {(x_1,y_1), (x_2,y_2), … ,(x_N,y_N)}$
其中每一个样本点由特征和类别组成。特征 $x_i \in \mathcal{X} \subseteq R^n$ ，类别 $y_i \in \mathcal{Y} = \{-1,+1\}$ ， $\mathcal{X}$ 是特征空间， $\mathcal{Y}$ 是类别集合，输出最终分类器 $G (x)$

Adaboost算法：

(1) 初始化训练数据的分布

$D_1 = (w_{11},…,w_{1i},…,w_{1N})，w_{1i} = \frac{1}{N}，i=1,2,…,N$
说明：首先假设训练数据得权值分布是均匀分布

(2) 对于 $m = 1, 2 \dots, M$

使用具有权值分布 $D_m$ 的训练数据集进行学习，得到基本分类器： $G_m(x): \mathcal{X} \rightarrow \{-1,+1\}$
计算 $G_m(x)$ 在训练集上的分类错误率

$e_m = \sum_{i=1}^NP(G_m(x_i) \neq y_i) = \sum_{i=1}^Nw_{mi}I(G_m(x_i) \neq y_i)$
计算 $G_m(x)$ 的系数 $\alpha _m = \frac{1}{2}log\frac{1-e_m}{e_m}$ 【log返回自然对数】
更新训练集的权重分布：
$D_{m+1} = (w_{m+1,1},…,w_{m+1,i},…w_{m+1,N}) \\ w_{m+1,i} = \frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i))，i=1,2,…,N$
$Z_m$

最低0.47元/天解锁文章

liying_tt

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Day09-集成学习-机器学习-Adaboost算法(DataWhale)

三、Boosting方法Boosting方法是使用同一组数据集进行反复的学习，得到一系列简单模型，然后组合这些模型构成一个预测性能十分强大的学习模型。Boosting方法是通过不断减小偏差的形式，而Bagging是通过降低方差的方法。大部分Boosting方法是通过改变训练数据集的概率分布(训练数据不同样本的权值)，针对不同概率分布的数据调用弱分算法学习一系列的弱分类器Boosting解决两个问题：(1)每一轮学习如何改变数据的概率分布；(2)如何将各个弱分类器组合起来。3.1 Adaboos
复制链接

扫一扫

专栏目录