CatBoost三个特点
(1)“减少过度拟合”:这可以帮助你在训练计划中取得更好的成果。它基于一种构建模型的专有算法,这种算法与标准的梯度提升方案不同。
(2)“类别特征支持”:这将改善你的训练结果,同时允许你使用非数字因素,“而不必预先处理数据,或花费时间和精力将其转化为数字。”
(3)支持Python或R的API接口来使用CatBoost,包括公式分析和训练可视化工具。
(4)有很多机器学习库的代码质量比较差,需要做大量的调优工作,而CatBoost只需少量调试,就可以实现良好的性能。这是一个关键性的区别。
CatBoost三种用途
- 分类
- 回归
- 排序
CatBoost支持数据探索性分析
- 特征重要性
- 特征交互(共线性)
- 新特征评估
CatBoost其他特点
- 过度拟合检测
- 混淆矩阵校验
- 缺失数据处理
- 交叉验证
- 对结构化数据集表现优秀
- 对异构数据支持最优
- 集成决策树
- 可应用于小数据或大数据
- 支持数值型变量
- 支持分类变量
CatBoost分类变量支持
- 支持独热编码
- 分类统计学方法
- 多种排序
- 贪婪式特征组合
CatBoost算法参数
- learning_rate+iterations
- depth
- l2_regularization
- bagging_temperature
- random_strength
传统boosting算法是有偏差的CatBoost用随机排列纠正偏差
CatBoost总结
- 集成树算法
- 类别变量支持良好
- cpu gpu高性能支持
- 使用方便,调参参数少,可视化效果好
CatBoost官网介绍
CatBoost is an algorithm for gradient boosting on decision trees. It is developed by Yandex researchers and engineers, and is used for search, recommendation systems, personal assistant, self-driving cars, weather prediction and many other tasks at Yandex and in other companies, including CERN, Cloudflare, Careem taxi. It is in open-source and can be used by anyone.