作业二_没有解决损失函数拟合方法的问题-CSDN博客

GBDT
1.GBDT思想
GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。
提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时，每一步优化是很简单的。但对一般损失函数而言，往往每一步优化并不那么容易，针对这一问题，Freidman提出了梯度提升算法，利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，拟合一个回归树。
2.负梯度拟合
GBDT的基本思路，但是没有解决损失函数拟合方法的问题。针对这个问题，Freidman提出了用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。
　　通过损失函数的负梯度来拟合，我们找到了一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用GBDT来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。
3.损失函数
　　对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种:
　　对于回归算法，常用损失函数有如下4种:
　　　　a)均方差，这个是最常见的回归损失函数了
　　　　b)绝对损失，这个损失函数也很常见
　　　　c)Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。
　　　　d) 分位数损失。
　　　　对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。
4.回归分类
在这里插入图片描述
参考：https://www.cnblogs.com/pinard/p/6140514.html
5.多元分类
除了负梯度计算和叶子结点的最佳残差拟合的线性搜索，多元GBDT分类和二元GBDT分类以及回归算法过程相似。
6.正则化
和Adaboost一样，我们也需要对GBDT进行正则化，防止过拟合。GBDT的正则化主要有三种方式。
　　第一种是和Adaboost类似的正则化项，即步长(learning rate)。对于同样的训练集学习效果，较小的νν意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。
　　第二种正则化的方式是通过子采样比例（subsample）。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。
　　使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样，程序可以通过采样分发到不同的任务去做boosting的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。
　　第三种是对于弱学习器即CART回归树进行正则化剪枝。在决策树原理篇里我们已经讲过，这里就不重复了。
7.优缺点
　　GBDT主要的优点有：
　　　　1) 可以灵活处理各种类型的数据，包括连续值和离散值。
　　　　2) 在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
　　　　3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。
GBDT的主要缺点有：
由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。
8.sklearn参数
sklearn.ensemble.GradientBoostingRegressor(
　　　　　　　　　　　　　　　　loss=‘ls’, ##默认ls损失函数’ls’是指最小二乘回归lad’（最小绝对偏差）'huber’是两者的组合
　　　　　　　　　　　　　　　　n_estimators=100, ##默认100 回归树个数弱学习器个数
　　　　　　　　　　　　　　　　learning_rate=0.1, ##默认0.1学习速率/步长0.0-1.0的超参数每个树学习前一个树的残差的步长
　　　　　　　　　　　　　　　　max_depth=3, ## 默认值为3每个回归树的深度控制树的大小也可用叶节点的数量max leaf nodes控制
　　　　　　　　　　　　　　 subsample=1, ##用于拟合个别基础学习器的样本分数选择子样本<1.0导致方差的减少和偏差的增加
　　　　　　　　　　　　　　　　min_samples_split=2, ##生成子节点所需的最小样本数如果是浮点数代表是百分比
　　　　　　　　　　　　　　　　min_samples_leaf=1, ##叶节点所需的最小样本数如果是浮点数代表是百分比
　　　　　　　　　　　　　　　　max_features=None, ##在寻找最佳分割点要考虑的特征数量auto全选/sqrt开方/log2对数/None全选/int自定义几个/float百分比
　　　　　　　　　　　　　　　　max_leaf_nodes=None, ##叶节点的数量 None不限数量
　　　　　　　　　　　　　　　　min_impurity_split=1e-7, ##停止分裂叶子节点的阈值
　　　　　　　　　　　　　　　　verbose=0, ##打印输出大于1打印每棵树的进度和性能
　　　　　　　　　　　　　　　　warm_start=False, ##True在前面基础上增量训练 False默认擦除重新训练增加树
　　　　　　　　　　　　　　　　random_state=0 ##随机种子-方便重现
)
9.应用场景
GBDT几乎可用于所有回归问题（线性/非线性），相对logistic regression仅能用于线性回归，GBDT的适用面非常广。亦可用于二分类问题（设定阈值，大于阈值为正例，反之为负例）。