xgboost 和 gbdt的对比

最新推荐文章于 2024-06-23 09:53:25 发布

cyong888

最新推荐文章于 2024-06-23 09:53:25 发布

阅读量2.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyong888/article/details/113112653

版权

xgboost 是gbdt的具体实现方案之一

1.gbdt的损失函数：

1.1 回归损失函数：均方损失函数、绝对值损失函数、huber损失函数（是均方损失函数和绝对值损失函数的折中）、分位数损失函数

1.2 分类损失函数：对数损失函数、指数损失函数

指数损失函数又分：二元分类和多元分类

2.gbdt的正则化：

2.1 学习率，learning rate 在0到1之间

2.2 采样比例：subsample 取值范围是（0，1], 采样是无放回的采样，一般取值（0.5，0.8）.子采样是为了减少过拟合，但是子采样会带来偏差。

2.3 cart 树剪纸。

3. xgboost 比gbdt 的优势

3.1. 算法本身的优化：gbdt基模型是 CART决策树，xgboost 除了支持CART树之外，还支持线性分类器，可以使用L1和L2配合使用

gbdt损失函数只对误差部分做了负梯度一阶导数展开，而xgboost 的损失函数增加了二阶导数，泰勒级数展开，这样更加准确。

用用二阶导数的原因有2个：（1）可以加快收敛（2）更加准确

3.2.健壮性的优化：对缺失值的处理，gbdt没有对缺失值做处理？xgboost 对缺失值，自动学习出缺失值的处理策略。

3.3.效率的优化：xgboost支持并行处理，这个并行不是在模型上的，而是在特征的并行上。

3.3.1：将特征排序后以block分组的形式存储在内存中，后面的排序会重复使用这个结构，这使得特征并行化成为了可能。

3.3.2：节点分裂的时候，计算每个特征的增益，最终分裂的时候选择增益最大的特征去做分裂。在计算特征增益的时候，用贪心算法枚举所有的分裂点，会有并行计算。

3.4 最佳特征选取策略不同。GBDT遍历所有特征，XGBoost引入类似于RandomForest的列（特征）子采样，有利于防止过拟合与加速运算

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

cyong888 CSDN认证博客专家 CSDN认证企业博客

码龄18年

82: 原创

6万+: 周排名

93万+: 总排名

17万+: 访问

: 等级

2590: 积分

215: 粉丝

20: 获赞

9: 评论

37: 收藏

私信

关注

热门文章

分类专栏

RTA 1篇
广告
keras 1篇
pythonn 8篇
推荐系统
NLP 6篇
笔记 2篇
日记
java 28篇
javascript 7篇
jsp 2篇
数据库 26篇
eclipse
生活工作体会 1篇
Extjs 2篇
操作系统 2篇
代码管理工具 1篇
WAS
shell 5篇
DB2 2篇
mobile app 1篇
系统集成 1篇
http/restful 1篇
Hadoop 2篇
数据挖掘 7篇
hive 1篇
机器学习 11篇

最新评论

awk 合并2个文件
CSDN-Ada助手: CS入门技能树或许可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
bert参数-max_seq_length的含义解释
鱼幼薇: 我这里直接报错了，要求更改设置。报错信息如下： [serWarning: some of your sentences have more tokens than "max_seq_len=25" set on the server, as consequence you may get less-accurate or truncated embeddings. here is what you can do: - disable the length-check by create a new "BertClient(check_length=False)" when you do not want to display this warning - or, start a new server with a larger "max_seq_len" '- or, start a new server with a larger "max_seq_len"' % self.length_limit)] [/code]
bert参数-max_seq_length的含义解释
大扬哥啦啦啦: 你好，max_seq_length设置的比句子最大值短的话，那么会不会导致得到的结果误差比较大啊
二叉树的左视图-Python
ctotalk: 学习了。
在extjs中，如何改变combobox中store的值。
自律的男孩才有希望找到女朋友: 正解

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。