Catboost 一个超级简单实用的boost算法

最新推荐文章于 2024-08-12 08:49:43 发布

fangzi1123

最新推荐文章于 2024-08-12 08:49:43 发布

阅读量1.8k

点赞数 2

分类专栏： AI boosting Python 文章标签： Ptyhon Catboost boosting

原文链接：https://www.jianshu.com/p/49ab87122562

版权

Python 同时被 3 个专栏收录

9 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

boosting

1 篇文章 0 订阅

订阅专栏

原文链接：https://www.jianshu.com/p/49ab87122562

今天笔者来介绍一个超级简单并且又极其实用的boosting算法包Catboost，据开发者所说这一boosting算法是超越Lightgbm和XGBoost的又一个神器。

catboost 简介
在笔者看来catboost有一下三个的优点：

它自动采用特殊的方式处理类别型特征（categorical features）。首先对categorical features做一些统计，计算某个类别特征（category）出现的频率，之后加上超参数，生成新的数值型特征（numerical features）。这也是我在这里介绍这个算法最大的motivtion，有了catboost，再也不用手动处理类别型特征了。
catboost还使用了组合类别特征，可以利用到特征之间的联系，这极大的丰富了特征维度。
catboost的基模型采用的是对称树，同时计算leaf-value方式和传统的boosting算法也不一样，传统的boosting算法计算的是平均数，而catboost在这方面做了优化采用了其他的算法，这些改进都能防止模型过拟合。
这里笔者只是简单介绍了一下catboost的优点，至于内部原理的细节部分，感兴趣的同学可以去看看论文原文，原文链接在这里。由俄罗斯大兄弟于2017年发表。

catboost 实战
这里笔者采用的是之前参加一个CTR点击率预估的数据集，首先通过pandas读入数据。

from catboost import CatBoostClassifier
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
data  = pd.read_csv("ctr_train.txt", delimiter="\t")
del data["user_tags"]
data = data.fillna(0)
X_train, X_validation, y_train, y_validation = train_test_split(data.iloc[:,:-1],data.iloc[:,-1],test_size=0.3 , random_state=1234)

在这里插入图片描述
下图我们对所有特征做了一个统计，发现整个训练数据集一共有34列，除去标签列，整个数据集一共有33个特征，其中6个为布尔型特征，2个为浮点型特征，18个整型特征，还有8个对象型特征。

如果按照正常的算法，此时应该将非数值型特征通过各种数据预处理手段，各种编码方式转化为数值型特征。而在catboost中你根本不用费心干这些，你只需要告诉算法，哪些特征属于类别特征，它会自动帮你处理。代码如下所示：

categorical_features_indices = np.where(X_train.dtypes != np.float)[0]
model = CatBoostClassifier(iterations=100, depth=5,cat_features=categorical_features_indices,learning_rate=0.5, loss_function='Logloss',
                            logging_level='Verbose')

最后就是将数据喂给算法，训练走起来。

model.fit(X_train,y_train,eval_set=(X_validation, y_validation),plot=True)

将plot = ture 打开后，catboot包还提供了非常炫酷的训练可视化功能，从下图可以看到我的Logloss正在不停的下降。
在这里插入图片描述
训练结束后，通过model.feature_importances_属性，我们可以拿到这些特征的重要程度数据，特征的重要性程度可以帮助我们分析出一些有用的信息。

import matplotlib.pyplot as plt 
fea_ = model.feature_importances_
fea_name = model.feature_names_
plt.figure(figsize=(10, 10))
plt.barh(fea_name,fea_,height =0.5)

执行上方代码，我们可以拿到特征重要程度的可视化结构，从下图我们发现campaign_id是用户是否点击这个广告的最关键的影响因子。
在这里插入图片描述
结语
至此整个catboot的优点和使用方法都介绍完了，是不是觉得十分简单易用，而且功能强大。深度学习，神经网络减弱了我们对特征工程的依赖，catboost也在朝着这方面努力。所以有时候碰到需要特别多的前期数据处理和特征数值化的任务时，可以尝试用一下catboost，python pip install catboost 即可安装哦。

参考
CatBoost: unbiased boosting with categorical features
https://blog.csdn.net/friyal/article/details/82758532
http://ai.51cto.com/art/201808/582487.htm