【论文笔记】CatBoost: unbiased boosting with categorical features

最新推荐文章于 2025-02-21 14:38:59 发布

yuukilp

最新推荐文章于 2025-02-21 14:38:59 发布

阅读量5.2k

点赞数 4

分类专栏： papers notes 论文笔记文章标签： CatBoost Machine Learning Gradient Boost data mining categorical features

本文链接：https://blog.csdn.net/u014686462/article/details/83543609

版权

原论文地址：here，本文主要记录论文中重要的部分。

1. Abstract

CatBoost 中最主要的两个算法性的特点在于：实现了有序提升，排列驱动以代替经典算法；一种新颖的算法处理分类变量。这些方法旨在解决prediction shift（普遍存在于梯度提升算法中）。

2. Introduction

所有现存的梯度提升算法都存在统计学上的问题。经过多次提升的预测模型 $F$ 依赖于训练样本的目标变量的。我们论证了：这会导致来自训练样本中 $X_k$ 的 $F(X_k)|X_k$ 分布与测试样本中 $X$ 的 $F(X_k)|X_k$ 分布的偏移。这最终会导致训练模型的prediction shift。我们将这种的问题称作：target leakage。