CatBoost算法的一些说明

最新推荐文章于 2025-02-21 14:38:59 发布

blinkyou001

最新推荐文章于 2025-02-21 14:38:59 发布

阅读量1.1k

点赞数 7

分类专栏：机器学习文章标签：算法人工智能

本文链接：https://blog.csdn.net/blinkyou001/article/details/139242370

版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

1. CatBoost算法简介

CatBoost算法（Categorical Boosting）作为梯度提升算法的一种，是继XGBoost、LightGBM算法之后的又一GBDT改进算法，由俄罗斯Yandex公司在2018年开源。论文《CatBoost: unbiased boosting with categorical features》详细讲解了该算法。

从CatBoost算法的命名可以看出，其特色在于能非常好地处理类别特征。在GBDT、XGBoost的梯度提升算法中，均不能直接支持类别特征。LightGBM虽能支持类别特征，但是在类别特征的处理上与CatBoost相比逊色较多。CatBoost的ordered TS方法，有效解决了类别特征的预测偏移问题。

2.CatBoost算法的主要知识点

（1）类别特征的处理

（2）预测偏移

（3）有序提升法

（4）有序提升的实现

3.CatBoost算法主要知识点的说明

3.1 类别特征的处理

类别特征的处理方法一般有独热编码(one-hot encoding)和目标统计（target statistics）、LabelEncoder等。比较常见的是one-hot编码和目标统计。

3.1.1 one-hot encoding

独热编码即 one-hot 编码，又称一位有效编码，根据属性的个数形成一个多维度的编码，每个属性作为一个维度给予一个状态编码（0或1）。在任意时候，一个样本仅有一维度的状态编码非0。

当特征的属性较多时，one-hot编码会形成大量的新特征，而造成维度灾难，并且会产生很多稀疏值的特征。

因此，one-hot 编码在不适合处理属性较多的分类特征。

3.1.2 Target Statistics

Target statistics是将特征的属性转化为目标统计量，用目标统计量来替代分类特征的取值。在论文中，作者介绍了三种Greedy TS目标统计量，分别为：Holdout TS、Leave-one-out TS、Ordered TS。指出了前两种目标统计量的不足，并指出了其构造的ordered TS的优势。下面分别说明这几种目标统计量。

Greedy TS

样本 $x_{k},k=1,2,...,n$ 的第 $i$ 个属性记为 $x_{k}^{i}$ 。其估计值 $\hat{x}_{k}^{i}$ 可考虑用样本中该特征在该属性下目标值的平均值替代，即

$\hat{x}_{k}^{i}=\frac{\sum_{j=1}^{n}I(x_{j}^{i}=x_{k}^{i})*y_{j}}{\sum_{j=1}^{n}I(x_{j}^{i}=x_{k}^{i})}$

对于低频的类别，该估计下训练集和测试集差异可能较大。因此，增加一个先验值 $p$ 使得取值平滑。

$\hat{x}_{k}^{i}=\frac{\sum_{j=1}^{n}I(x_{j}^{i}=x_{k}^{i})*y_{j}+ap}{\sum_{j=1}^{n}I(x_{j}^{i}=x_{k}^{i})+a}$ ，其中 $a$ 为参数， $p$ 一般设定为target的目标值。

这种TS在计算 $x_{k}^{i}$ 时利用了 $y_{k}$ ，因此存在了目标泄漏的问题，会导致 $x^{i}|y$ 在训练集的分布与测试集不同。

此时，可以对 $x_{k}^{i}$ 的估计公式进行修正，常用的方法是 $D_{k}=D-\left \{ x_{k} \right \}$ ，即从样本中将第 $k$ 个样本排除，再计算TS：

$\hat{x}_{k}^{i}=\frac{\sum_{x_{j}\in D_{k}}^{}I(x_{j}^{i}=x_{k}^{i})*y_{j}+ap}{\sum_{x_{j}\in D_{k}}^{}I(x_{j}^{i}=x_{k}^{i})+a}$ （1）

Holdout TS

这种方法是将训练集数据划分为两部分，一分部根据前述（1）式用于计算TS，一部分用于模型训练。

这种方法未能充分利用所有的训练集数据进行模型训练和TS值的计算。

Leave-one-out TS

这种方法在计算TS和训练模型时以 $D_{k}=D-\left \{ x_{k} \right \}$ 作为训练集，以 $D$ 作为测试集。

在原论文中，作者指出这一TS并不能防止目标泄露。

ordered TS

对于样本的一个排列 $\sigma$ ，其中第 $k$ 个样本的排序记为 $\sigma \left ( k \right )$ ，记 $D_{k}=\left \{ x_{j}:\sigma (j)<\sigma (k) \right \}$ ，并据此按前述公式（1）计算样本的TS值。取 $D_{k}=D$ 用来计算测试集的TS。