GBDT算法梳理

最新推荐文章于 2022-06-28 17:05:56 发布

285957606

最新推荐文章于 2022-06-28 17:05:56 发布

阅读量359

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014691964/article/details/88089689

版权

1.向前分布算法
每次只学习一次经验，通过经验累加经验，一步步逼近最优解。
在这里插入图片描述

最终的分布算法为fm(xi)=fm-1(xi)+Bb(xi;r) ；； fm-1(xi)是已知的，通过一步步逼近最优解
在这里插入图片描述
2.负梯度拟合
提升树利用向前分布算法与加法模型进行学习实现优化过程，由于一步步的优化，每下一步难度便会增加，针对这个问题就出现了梯度提升算法，这个方法也是利用最速下降方法原理。

3.损失函数
方误差损失：
通过回归方程使得每个训练点与合线的距离的平方和最小。
ESM方误差+Sigmoid激活函数：
交叉熵损失
svm合页损失
Smooth L1损失（梯度爆炸损失）

4.回归
回归是一种探索一组变量与另一种变量的统计关系学科。又称为多重回归分析
线性回归、岭回归、Lasso回归
线性回归：
在这里插入图片描述
岭回归与Lasso回归：
岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的，这两种回归均通过在损失函数中引入正则化项来达到目的，具体三者的损失函数对比见下图：在这里插入图片描述
其中λ称为正则化参数，如果λ选取过大，会把所有参数θ均最小化，造成欠拟合，如果λ选取过小，会导致对过拟合问题解决不当，因此λ的选取是一个技术活。
岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项，Lasso回归引入的是L1范数惩罚项，Lasso回归能够使得损失函数中的许多θ均变成0，这点要优于岭回归，因为岭回归是要所有的θ均存在的，这样计算量Lasso回归将远远小于岭回归。

二分类，多分类：
二分类算法就是Logistic回归。
总公式是
在这里插入图片描述
代价函数：

经过损失函数改写后变为

正则化：
正则化可以防止过度拟合，
拟合的主要原因：具有过多的特征项
解决方法：选择性的减少特征数量模型选择算法
正则化十结构化风险最小策略的实现，是在经验风险上加一个正则化或惩罚项，模型越复杂，正则化项就越大。

优缺点：
二分类
优点：
速度快，适合二分类问题
简单，容易分辨区分
能很容易的嵌入新模型
缺点：
在数据和场景应用过程中具有局限性

sklearn参数：
class sklearn.linear_model.LogisticRegression(

penalty=’l2’, 参数类型：str，可选：‘l1’ or ‘l2’, 默认: ‘l2’。该参数用于确定惩罚项的范数

dual=False, 参数类型：bool,默认：False。双重或原始公式。使用liblinear优化器，双重公式仅实现l2惩罚。

tol=0.0001, 参数类型：float，默认：e-4。停止优化的错误率

C=1.0, 参数类型：float，默认；1。正则化强度的导数，值越小强度越大。

fit_intercept=True, 参数类型：bool，默认：True。确定是否在目标函数中加入偏置。

intercept_scaling=1, 参数类型：float，默认：1。仅在使用“liblinear”且self.fit_intercept设置为True时有用。

class_weight=None, 参数类型：dict，默认：None。根据字典为每一类给予权重，默认都是1.

random_state=None, 参数类型：int，默认：None。在打乱数据时，选用的随机种子。

solver=’warn’, 参数类型：str，可选：{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, 默认：liblinear。选用的优化器。

max_iter=100, 参数类型：int，默认：100。迭代次数。multi_class=’warn’, 参数类型：str，可选：{‘ovr’, ‘multinomial’, ‘auto’}，默认：ovr。如果选择的选项是’ovr’，

那么二进制问题适合每个标签。对于“多项式”，最小化的损失是整个概率分布中的多项式损失拟合，即使数据是二进制的。当solver 　='liblinear’时，'multinomial’不

可用。如果数据是二进制的，或者如果solver =‘liblinear’，‘auto’选择’ovr’，否则选择’multinomial’。

verbose=0, 参数类型：int，默认：0。对于liblinear和lbfgs求解器，将详细设置为任何正数以表示详细程度。

warm_start=False, 参数类型：bool，默认：False。是否使用之前的优化器继续优化。

n_jobs=None，参数类型：bool，默认：None。是否多线程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。