机器学习分类算法(八)-XGBoost算法

最新推荐文章于 2024-05-11 05:19:07 发布

安替-AnTi

最新推荐文章于 2024-05-11 05:19:07 发布

阅读量5k

点赞数 12

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35770067/article/details/107427949

版权

机器学习专栏收录该内容

70 篇文章 3 订阅 ¥299.90 ¥99.00

订阅专栏

决策树

举个例子，集训营某一期有100多名学员，假定给你一个任务，要你统计男生女生各多少人，当一个一个学员依次上台站到你面前时，你会怎么区分谁是男谁是女呢？

很快，你考虑到男生的头发一般很短，女生的头发一般比较长，所以你通过头发的长短将这个班的所有学员分为两拨，长发的为“女”，短发为“男”。

相当于你依靠一个指标“头发长短”将整个班的人进行了划分，于是形成了一个简单的决策树，而划分的依据是头发长短。
这时，有的人可能有不同意见了：为什么要用“头发长短”划分呀，我可不可以用“穿的鞋子是否是高跟鞋”，“有没有喉结”等等这些来划分呢，答案当然是可以的。

但究竟根据哪个指标划分更好呢？很直接的判断是哪个分类效果更好则优先用哪个。所以，这时就需要一个评价标准来量化分类效果了。

怎么判断“头发长短”或者“是否有喉结”是最好的划分方式，效果怎么量化呢？直观上来说，如果根据某个标准分类人群后，纯度越高效果越好，比如说你分为两群，“女”那一群都是女的，“男”那一群全是男的，那这个效果是最好的。但有时实际的分类情况不是那么理想，所以只能说越接近这种情况，我们则认为效果越好。

量化分类效果的方式有很多，比如信息增益（ID3）、信息增益率（C4.5）、基尼系数（CART）等等。

信息增

了解本专栏

关注

12
点赞
踩
81

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习分类算法(八)-XGBoost算法

集成算法思想单个决策树得出的结果效果不一定好，太绝对化，因此采用集成的方法，可以采用两棵树或者多棵树来统计结果。也就是说用一个分类器可能表达的效果不是很好，可以采用多个分类器来统计结果，每个算法相当于一个弱分类器，结合在一起形成强分类器。如下图所示，我们需要利用一些特征预测用户是否喜欢玩电脑玩游戏。左边的tree1采用的特征是年龄，我们对不同的年龄给予不同的权重。最终每个用户得出不同的值。这是第一棵决策树预测的结果。右边的tree2采用的特征是是否每天使用电脑，我们也划分了不同的权重。最终我们利用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

安替-AnTi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。