CatBoost原理简介

沉住气CD

已于 2024-01-19 13:11:32 修改

阅读量1.4k

点赞数 21

分类专栏：机器学习常用算法文章标签：人工智能大数据 python 数据挖掘

于 2024-01-15 16:20:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pydarren/article/details/135604603

版权

简介

CatBoost是一种以对称决策树(oblivious trees)为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架，是俄罗斯搜索公司Yandex在2017年开源的机器学习框架，属于Boosting算法族。Catboost和XGBoost、LightGBM并称为GBDT三大主流神器，都是基于GBDT算法的一种改进实现。

Catboost和XGBoost、LightGBM的联系与区别

最早的XGBoost算法首次于2014年3月被陈天奇提出，2017年1月微软发布了LGBM的第一个稳定版本，2017年4月Yandex开源了Catboost。后两者是对XGBoost的一种改进。
CatBoost擅长处理类别型特征，可直接传入类别型特征的列标识，模型会自动对其进行独热编码，还可以通过设置one_hot_max_size参数来限制独热特征向量的长度。如果不传入类别型特征的列标识，那么CatBoost会把所有列视为数值特征。对于独热编码超过设定的one_hot_max_size值的特征来说，CatBoost将会使用一种高效的encoding方法，与mean encoding类似，但是会降低过拟合。处理过程如下：
- 将输入样本数据随机排序，并生成多组随机排列的情况；
- 将浮点型或属性值标记转化为整数；
- 将所有类别型特征结果都根据以下公式，转化为数值结果：
  $avg\_target = \frac{countInClass + prior}{totalCount + 1}$

最低0.47元/天解锁文章

关注

21
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

沉住气CD

CSDN认证博客专家 CSDN认证企业博客

码龄7年

110: 原创

7万+: 周排名

9万+: 总排名

19万+: 访问

: 等级

2865: 积分

548: 粉丝

698: 获赞

37: 评论

1305: 收藏

私信

关注

分类专栏

工程开发 2篇
数据可视化 5篇
PyTorch 5篇
机器学习常用算法 11篇
NLP 3篇
统计学 12篇
python学习 17篇
R学习 11篇
数据库 7篇
爬虫 3篇
数据结构 19篇
深度学习 5篇

最新评论

统计学之基础知识（数据分析准备）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
利用R语言进行基本数据管理
沉住气CD: 强推ggplot2
R语言高级数据管理
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
利用R语言进行基本数据管理
CSDN-Ada助手: R语言中的数据可视化库有哪些？
利用R语言的dplyr包进行数据转换
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。