随机森林，GBDT，Adaboost原理及python实现

最新推荐文章于 2024-07-10 22:38:17 发布

howardact

最新推荐文章于 2024-07-10 22:38:17 发布

阅读量7.7k

点赞数

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/53129359

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

随机森林 python实现

GBDT python实现

Adaboost python实现

装袋（bagging）又称自助聚集（boot strap aggregating），
是一种根据均匀分布概率从数据集最中有放回的重复抽样的技术。每个自助样本集都和原始数据集一样大，自助样本D_{i}大约包含63%的原训练数据。
决策树桩（decision stump）
仅基于单个特征来做决策，仅包含一层的二叉决策树

#1、随机森林
##1.1、随机森林的过程：

从N个训练样本中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的样本作预测，评估其误差；
对于每一个节点，随机选择m个特征，根据这m个特征，计算其最佳的分裂方式。
每棵树都会完整成长而不会剪枝（Pruning，这有可能在建完一棵正常树状分类器后会被采用）。
对于新数据，经过每棵树决策，最后投票确认分到哪一类。

用N来表示训练用例（样本）的个数，M表示特征数目。
$输入特征数目 m ， m 的可选 l o g M ， M / 3 ， s q r t (M) ， M, 一般情况 m < < M$ 。

##1.2、随机森林的优点有：

比较适合做多分类问题，训练和预测速度快，在数据集上表现良好；
不会出现过度拟合；
实现简单并且容易实现并行化。
对训练数据的容错能力强，是一种有效地估计缺失数据的一种方法，当数据集中有大比例的数据缺失时仍然可以保持精度不变和能够有效地处理大的数据集；
能够处理很高维度的数据，并且不用做特征选择，即：可以处理没有删减的成千上万的变量；
能够在分类的过程中可以生成一个泛化误差的内部无偏估计；
能够在训练过程中检测到特征之间的相互影响以及特征的重要性程度；

#2、GBDT（Gradient Boosting Decision Tree）

算法实现过程描述：
损失函数及负梯度：
最小二乘回归树生成算法：
偏差方差trade-off，
单棵数深度越浅模型拟合效果越差，方差越小，偏差越大；相反，深度越深模型拟合效果越好，方差越大，偏差越小
对于Bagging算法来说，由于我们会并行地训练很多不同的分类器的目的就是降低这个方差(variance) ,因为采用了相互独立的基分类器多了以后，h的值自然就会靠近.所以对于每个基分类器来说，目标就是如何降低这个偏差（bias),所以我们会采用深度很深甚至不剪枝的决策树。
对于Boosting来说，每一步我们都会在上一轮的基础上更加拟合原数据，所以可以保证偏差（bias）,所以对于每个基分类器来说，问题就在于如何选择variance更小的分类器，即更简单的分类器，所以我们选择了深度很浅的决策树。

这里写图片描述
参考： http://www.jianshu.com/p/005a4e6ac775
#3、AdaBoost

两个问题： x多维情况如何处理 2 基分类器如何确定
训练数据集为：
$T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})}$

（1）、初始化训练数据的权值分布：

$D_{1}=(w_{11},...,w_{1i},...,w_{1N}),\ w_{1i}=\frac{1}{N},\ i=1,2,...,i,...,N$
（2）、对 $m = 1, 2, . . ., M$

(a) 、 $使用权值分布D_{m}的训练数据集学习，得到基分类器$ ：
$G_{m}(x):\chi \rightarrow \{-1,+1\}$

$训练数据集可以根据权值分布D_{m}从T中有放回重复抽样$
基分类器可以用 ID3，C4.5，CART等算法得到。

(b)、 $计算G_{m}(x)在数据集上的分类误差率：$
$e_{m}=P\left (G_{m}(x_{i})\neq y_{i}\right )=\sum_{i=1}^{N}w_{mi}I(G_{x}(x_{i})\neq y_{i})$

分类误差率为分错样本的权值和。

©、 $计算G_{m}(x)的系数a_{m}$
$a_{m}=\frac{1}{2}log\frac{1-e_{m}}{e_{m}}$

![这里写图片描述](https://img-blog.csdn.net/20161117153234155) - (d)、$更新训练数据集的权值分布D_{m+1}:$

$w_{m+1,i}=\frac{w_{mi}}{Z_{m}}exp(-a_{m}y_{i}G_{m}(x_{i}))$
$D_{m+1}=(w_{m+1,1},w_{m+1,2},...,w_{m+1,i},...,w_{m+1,N})$

$被分错的及没有被选中的样本在下一轮中的权值变大$ 。
$其中规范化因子Z_{m}根据下式得出：$
$Z_{m}=\sum_{i=1}^{N}w_{mi}exp(-a_{m}y_{i}G_{m}(x_{i}))$

（3）、构建基本分类器的线性组合：
$f(x)=\sum_{m=1}^{M}a_{m}G_{m}(x)$
最终分类器为：
$G(x)=sign(f(x))=sign\left(\sum_{m=1}^{M}a_{m}G_{m}(x) \right)$

#4、Adaboost的推导

$f(x)=\sum_{m=1}^{M}a_{m}G_{m}(x)\tag{4.1}$

$其中基分类器G_{m}(x)函数为m轮返回x的预测值，G_{m}(x) \in \{-1,1\}，系数a_{m}为m轮的权重系数。$

损失函数为指数损失（exponential loss function）

$L(y,f(x))=exp[-y\cdot f(x)]\tag{4.2}$

$假设经过m-1次迭代，得到f_{m-1}(x)$

$f_{m}(x)=f_{m-1}(x)+a_{m}G_{m}(x)\tag{4.3}$

$目标是在第m步得到的a_{m}和G_{m}(x)使目标函数在训练数据集上最小,4.3带入4.2得：$
$(a_{m},G_{m}(x))=arg\ \underset{a_{m},G_{m}}{min}\sum_{i=1}^{N}exp \left [-y_{i} \left ( f_{m-1}(x_{i})+a_{m}G_{m}(x_{i}) \right ) \right ]\tag{4.4}$

N为训练数据集的记录数目

$式子 4.4 能化简成如下格式：$
$(a_{m},G_{m}(x))=arg\ \underset{a,G}{min}\sum_{i=1}^{N}\bar{w}_{mi}\ exp \left [-y_{i}aG(x_{i}) \right ]\tag{4.5}$

$1、在等式右边a和G是变量，寻找使目标函数最小的a和G成为a_{m}和G_{m}$
$2、其中在第m轮中\bar{w}_{mi}=exp(-y_{i}f_{m-1}(x_{i})),\bar{w}_{mi}与a和G无关，但依赖f_{m-1}(x_{i})，随每一轮迭代而发生变化。$
$3、x^{a+b}=x^a\cdot x^b$

使式子最小的G(x)由下式得到：
$G^{*}_{m}(x)=arg \ \underset{G}{min}\sum_{i=1}^{N}\bar{w}_{mi}I(y_{i}\neq G(x_{i}))\tag{4.6}$

1、$I(y_{i}\neq G(x_{i})当括号内为真时返回1，括号内为假时返回0 \ $
2、 $\bar{w}_{mi}=exp(-y_{i}f_{m-1}(x_{i}))，即在第m轮预测错误样本的上一轮权值之和，即预测误差$

损失函数表示为：
$\sum_{i=1}^{N}\bar{w}_{mi}exp[-y_{i}aG(x_{i})]\tag{4.7}$

$y_{i} \in \{-1,1\}, G(x_{i})\in \{-1,1\},y_{i} =G(x_{i})则-y_{i}aG(x_{i})=-a;y_{i} \neq G(x_{i})则-y_{i}aG(x_{i})=a$

4.7改写成如下形式：
$=\sum_{y_{i}= G(x_{i})}\bar{w}_{mi}\ e^{-a}+\sum_{y_{i}\neq G(x_{i})}\bar{w}_{mi}\ e^{a}\tag{4.8}$

$\sum_{y_{i}= G(x_{i})}\bar{w}_{mi}\ e^{-a}=\sum\bar{w}_{mi}e^{-a}-\sum_{y_{i}\neq G(x_{i})}\bar{w}_{mi}\ e^{-a}$

4.8改写成如下形式：
$=(e^{a}-e^{-a})\sum_{i=1}^{N}\bar{w}_{mi}I(y_{i}\neq G(x_{i}))+e^{-a}\sum\bar{w}_{mi}\tag{4.9}$
$令A=\sum_{i=1}^{N}\bar{w}_{mi}I(y_{i}\neq G(x_{i}))，B=\sum\bar{w}_{mi}，4.9可以写成如下形式：$

$=(e^{a}-e^{-a})\cdot A + e^{-a}\cdot B\tag{4.10}$

$对 a 求导并令导数为 0 ，求的 a ：$

$a=\frac{1}{2}ln\frac{1-\frac{A}{B}}{\frac{A}{B}}=\frac{1}{2}ln\frac{1-e_{m}}{e_{m}}\tag{4.11}$

$其中，e_{m}为分类误差率：$
$e_{m}=\frac{A}{B}=\frac{\sum_{i=1}^{N}\bar{w}_{mi}I(y_{i}\neq G(x_{i}))}{\sum\bar{w}_{mi}}=\sum_{i=1}^{N}w_{mi}I(y_{i}\neq G(x_{i}))\tag{4.12}$
$更新模型f_{m}(x)：$
$f_{m}(x)=f_{m-1}(x)+a_{m}G_{m}(x)\tag{4.13}$
$更新权值\bar{w}_{m+1,i}:$
$\bar{w}_{m+1,i}=\bar{w}_{m,i}exp(-y_{i}a_{m}G_{m}(x))\tag{4.14}$

$\bar{w}_{mi}=exp(-y_{i}f_{m-1}(x_{i}))$

参考链接1
例子分析

howardact

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
随机森林，GBDT，Adaboost原理及python实现

随机森林 python实现GBDT python实现Adaboost python实现装袋（bagging）又称自助聚集（boot strap aggregating），是一种根据均匀分布概率从数据集最中有放回的重复抽样的技术。每个自助样本集都和原始数据集一样大，自助样本D_{i}大约包含63%的原训练数据。决策树桩（decision stump）仅基于单个特征来做决策，仅包含一层的二叉
复制链接

扫一扫

专栏目录