文章目录
树模型系列之CatBoost
CatBoost是在GBDT算法框架下的一种改进实现,是一种基于对称决策树(oblivious trees)算法的参数少、支持类别型变量和高准确性的GBDT框架,主要说解决的痛点是高效合理地处理类别型特征,这个从它的名字就可以看得出来,CatBoost是由catgorical和boost组成,另外是处理梯度偏差(Gradient bias) 以及 预测偏移(Prediction shift) 问题,提高算法的准确性和泛化能力。
CatBoost主要有以下五个特性:
- 无需调参即可获得较高的模型质量,采用默认参数就可以获得非常好的结果,减少在调参上面花的时间
- 支持类别型变量,无需对非数值型特征进行预处理
- 快速、可扩展的GPU版本,可以用基于GPU的梯度提升算法实现来训练你的模型,支持多卡并行
- 提高准确性,提出一种全新的梯度提升机制来构建模型以减少过拟合
- 快速预测,即便应对延时非常苛刻的任务也能够快速高效部署模型