0406任务二高级算法梳理-GBDT算法梳理

最新推荐文章于 2020-09-23 15:05:53 发布

Guiabbey

最新推荐文章于 2020-09-23 15:05:53 发布

阅读量303

点赞数

本文链接：https://blog.csdn.net/Guiabbey/article/details/89061703

版权

任务二GBDT算法梳理

一、加法模型与前向分布算法

一、加法模型与前向分布算法

https://blog.csdn.net/u013597931/article/details/79874439
AdaBoost 算法可以认为是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法的二类分类学习方法。

1、加法模型

在这里插入图片描述
对应两个未知参数，基函数的参数和基函数的系数。

2、前向分布算法

在这里插入图片描述

前向分布算法求解这一问题的优化方法是：每次只学习一个基函数及系数，逐步逼近最优解。

二、负梯度拟合

https://blog.csdn.net/u013597931/article/details/79874439
在这里插入图片描述
其实无论是分类问题还是回归问题的提升树，我们都可以用损失函数的负梯度来其实无论是分类问题还是回归问题的提升树它们的区别只在于损失函数不同导致的负梯度的不同，这就是GBDT算法。

第1步：估计使损失函数极小化的常数值，它是只有一个根结点的树。
第2(a)步：计算损失函数的负梯度在当前模型的值，将它作为残差的估计。对于平方损失函数，它就是通常所说的残差；对于一般损失函数，它就是残差的近似值。
第2(b)步：估计回归树的叶结点区域，以拟合残差的近似值。
第2©步：利用线性搜索估计叶结点区域的值，使损失函数极小化。
第2(d)步：更新回归树。

三、GBDT常用损失函数

https://www.cnblogs.com/pinard/p/6140514.html

1、分类算法

(1)指数损失函数
在这里插入图片描述
(2)对数损失函数,分为二元分类和多元分类。
对于二元分类

2、回归算法

（1）均方差
在这里插入图片描述
（2）绝对损失

（3）Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。
（4）分位数损失。
对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

四、GBDT回归算法

https://blog.csdn.net/u013597931/article/details/79874439
在这里插入图片描述

五、GBDT分类算法

https://www.cnblogs.com/pinard/p/6140514.html
GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。
为了解决这个问题，主要有两个方法：
（1）用指数损失函数，此时GBDT退化为Adaboost算法。
（2）是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。
本文仅讨论用对数似然损失函数的GBDT分类。对此我们又有二元分类和多元分类的区别。

1、二分类

在这里插入图片描述

2、多分类

在这里插入图片描述

六、正则化

在这里插入图片描述

七、优缺点

目前GBDT的算法比较好的库是xgboost。当然scikit-learn也可以。

GBDT主要的优点有：
（1）可以灵活处理各种类型的数据，包括连续值和离散值。
（2）在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
（3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。
GBDT的主要缺点有：
（1）由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

八、sklearn参数

https://mp.weixin.qq.com/s/BAkZCSaq5H8D3EkKKAilig
GBDT和Adaboost都是Boosting模型的一种，但是略有不同，主要有以下两点不同：

GBDT使用的基模型是CART决策树，且只能是CART决策树，而Adaboost的默认基模型是CART决策树，可以是其他模型。
GBDT通过计算每次模型的负梯度来进行模型迭代，而Adaboost模型则根据错分率来进行模型迭代。

class sklearn.ensemble.GradientBoostingClassifier
(loss='deviance', learning_rate=0.1, n_estimators=100, 
subsample=1.0, criterion='friedman_mse', min_samples_split=2,
 min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_decrease=0.0, 
min_impurity_split=None,init=None,
random_state=None, max_features=None, verbose=0,
max_leaf_nodes=None, warm_start=False, presort='auto')