GBDT浅谈以及代码实现

最新推荐文章于 2024-09-18 19:44:06 发布

置顶

bound2020

最新推荐文章于 2024-09-18 19:44:06 发布

阅读量1.4w

点赞数 14

文章标签： python 算法 gbdt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bound2020/article/details/53412139

版权

本文探讨了GBDT的基本原理和优势，包括CART树的构建和梯度提升过程。作者分享了自己的Python代码实现，虽然简单且未加入正则化，但提供了理解模型的基础。文章还提及了对xgboost源码的学习计划以及链接到其他GBDT实现的解读资源。

摘要由CSDN通过智能技术生成

GBDT作为近年很热门的模型，其性能非常突出，用途也是涵盖了从特征选择到分类、回归，被广大从业者和爱好者所使用。

网上关于gbdt的原理和数学推导已经有很多，我就谈谈我个人的浅见，如有错误还望指正。同时还附上我自己实现的简单的python代码，功能比较简单，并且性能也不高，只作为自己对模型的理解，欢迎拍砖。

从大的框架来说，主要可以分解成两个部分：构建树和梯度提升。GBDT中的树一般都是CART，即分类回归树，这是GBDT强大的第一个原因。分类回归树能同时处理分类和回归问题，根据不同的问题类型，采用不同的属性分裂准则。在实现的时候，个人觉得，如何高效地分裂属性是需要好好考虑的。参考xgboost的实现方式，其对列进行了采样，不仅提升了性能，也防止了过拟合。第二个强大的原因就是梯度提升，在前一颗树的残差基础上进行拟合，不得不感叹是一个非常好的思路。让我想到了孔子的“吾日三省吾身”，也就是每次训练完之后，就看看自己和圣人的差距有多少，然后在下一次训练的时候尽量去弥补这个差距。当然了，前提是圣人不会再提升了，否则自己永远也赶不上了。在具体实现的时候，如何体现“梯度提升”，如何对函数求导也是一个难点。好在在friedman的论文中，已经提供了一个比较简便的方法，推导也在论文中给出，因此我的代码就参考了论文中算法6的步骤，即对类似softmax的输出求残差，实现起来比较容易。

我实现的GBDT模型很简单，都没有加入正则化，而且分类的性能好像也不高，跑起来又费时费力，所以欢迎提出改进建议和意见。

最低0.47元/天解锁文章

关注

14
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

bound2020 CSDN认证博客专家 CSDN认证企业博客

码龄16年

19: 原创

24万+: 周排名

219万+: 总排名

2万+: 访问

: 等级

393: 积分

36: 粉丝

19: 获赞

4: 评论

17: 收藏

私信

关注

热门文章

分类专栏

最新评论

eges v3
不正经的kimol君: 快进我的收藏夹
【牛客网】代理服务器
zhaonecsdn: 贪心 [code=cpp] #include <algorithm> #include <string> #include <iostream> #include <unordered> #include <vector> using namespace std; int main(void){ int proxyNum=0; int askNum=0; while(EOF!=scanf("%d",&proxyNum)){ //读入数据 int id=0; unordered_map<string> ipmap; int used[proxyNum]; for(int i=0; i<proxyNum>(tmp,id++)); used[i]=0; } scanf("%d",&askNum); vector<int> askQueue; for(int i=0; i<askNum; i++){ char ip[16]; scanf("%s",ip); string tmp(ip); if(ipmap.find(tmp)!=ipmap.end()) askQueue.push_back(ipmap[tmp]); } bool impossible=false; if(proxyNum==1) for(int i=0; i<askQueue.size(); i++) if(askQueue[i]==0){ impossible=true; break; } if(impossible){ printf("-1\n"); continue; } //开始计算切换个数 int proxyUsedNum=0; int turnNum=0; for(auto & it:askQueue) if(used[it]==0){ if(proxyUsedNum==proxyNum-1){ turnNum++; for(int i=0; i<proxyNum; i++) used[i]=0; proxyUsedNum=0; } used[it]=1; proxyUsedNum++; } printf("%d\n",turnNum); } } [/code]
【牛客网】代理服务器
zhaonecsdn: #include <algorithm> #include <string> #include <iostream> #include <unordered> #include <vector> using namespace std; int main(void){ int proxyNum=0; int askNum=0; while(EOF!=scanf("%d",&proxyNum)){ //读入数据 int id=0; unordered_map<string> ipmap; int used[proxyNum]; for(int i=0; i<proxyNum>(tmp,id++)); used[i]=0; } scanf("%d",&askNum); vector<int> askQueue; for(int i=0; i<askNum; i++){ char ip[16]; scanf("%s",ip); string tmp(ip); if(ipmap.find(tmp)!=ipmap.end()) askQueue.push_back(ipmap[tmp]); } bool impossible=false; if(proxyNum==1) for(int i=0; i<askQueue.size(); i++) if(askQueue[i]==0){ impossible=true; break; } if(impossible){ printf("-1\n"); continue; } //开始计算切换个数 int proxyUsedNum=0; int turnNum=0; for(auto & it:askQueue) if(used[it]==0){ if(proxyUsedNum==proxyNum-1){ turnNum++; for(int i=0; i<proxyNum; i++) used[i]=0; proxyUsedNum=0; } used[it]=1; proxyUsedNum++; } printf("%d\n",turnNum); } }
GBDT浅谈以及代码实现
cqychen: xgboost源代码一起来做呀

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。