模型融合---CatBoost总结-CSDN博客

一、Catboost简介

全称：Gradient Boosting(梯度提升) + Categorical Features(类别型特征)
作者：俄罗斯的搜索巨头Yandex
官方地址
论文链接 | 项目地址
文档地址
视频

二、Catboost的特点

　　一般来说，Gradient Boosting(GB)方法适用于异质化数据。即，若你的数据集全由图片数据构成或者全由视频数据构成之类的，我们称其为同质化数据，这时使用神经网络往往会有更好的表现。但对于异质化数据，比如说数据集中有user gender，user age，也有content data等等的情况，GB方法的表现往往更好。GB方法比神经网络的入门门槛更低，使用起来也更简单。

　　NN和GB方法可以结合起来使用，并常常有很好的表现。我们可以使用NN方法学习embedding feature，并且和其他一些特征结合起来，再过GBDT。

　　Catboost具有一些和其他类似的库不同的特征：

1.类别型特征

　　对于可取值的数量比独热最大量还要大的分类变量，CatBoost 使用了一个非常有效的编码方法，这种方法和均值编码类似，但可以降低过拟合情况。它的具体实现方法如下：

将输入样本集随机排序，并生成多组随机排列的情况。
将浮点型或属性值标记转化为整数。
将所有的分类特征值结果都根据以下公式，转化为数值结果。

　　其中 CountInClass 表示在当前分类特征值中，有多少样本的标记值是「1」；Prior 是分子的初始值，根据初始参数确定。TotalCount 是在所有样本中（包含当前样本），和当前样本具有相同的分类特征值的样本数量。可以用下面的数学公式表示：

特征组合

其次，它用特殊的方式处理categorical features。首先他们会计算一些数据的statistics。计算某个category出现的频率，加上超参数，生成新的numerical features。这一策略要求同一标签数据不能排列在一起（即先全是0之后全是1这种方式），训练之前需要打乱数据集。第二，使用数据的不同排列（实际上是4个）。在每一轮建立树之前，先扔一轮骰子，决定使用哪个排列来生成树。第三，考虑使用categorical features的不同组合。例如颜色和种类组合起来，可以构成类似于blue dog这样的feature。当需要组合的categorical features变多时，catboost只考虑一部分combinations。在选择第一个节点时，只考虑选择一个feature，例如A。在生成第二个节点时，考虑A和任意一个categorical feature的组合，选择其中最好的。就这样使用贪心算法生成combinations。第四，除非向gender这种维数很小的情况，不建议自己生成one-hot vectors，最好交给算法来处理。