CatBoost 模型中标称型特征转换成数字型特征

Sylvester_

于 2018-10-24 20:43:30 发布

阅读量2.5k

点赞数

分类专栏： CatBoost 文章标签： CatBoost 标称特征类别特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l_xzmy/article/details/83350401

版权

本文详细介绍了CatBoost模型如何将标称特征转化为数值特征，包括Borders、Buckets、BinarizedTargetMeanValue和Counter四种方法，并通过具体例子展示了处理过程，适用于回归和分类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

接上一篇文章 CatBoost 模型中标称特征的处理，这篇说一下CatBoot中实现的标称特征处理方法。
可以查看官网原文 Transforming categorical features to numerical features。

CatBoost 支持两种类型的特征。一种是数值型，例如高度（182, 173）和任何人的二值特征（0, 1）。另外一种是标称型特征。只能取有限个可能的值，通常这些值是固定的，例如歌曲风格（“rock”, “indie”, “pop”）。

标称型特征处理流程

随机排列输入样例。
将标签转换成整型。根据机器学习问题，做不同的处理。
1. 回归问题：离散化目标值。CatBoost 中有一个 Binarization 过程。开始是有一个参数 K, 目标值会离散到K+1 个桶中，每个值只在其中一个桶。这样，重新得到一个标签，取值从0到K。
2. 分类问题：可能的目标值只有0和1。
3. 多分类问题：标签的值应该是整型的，并且从0开始。
使用下面的方法将类别特征转换成数值型特征。CatBoost中根据开始设置的参数选择使用何种方法。回顾一下上一篇说的，有一个观察数据集 $\mathcal{D} = {(X_i ,Y_i )}_{i=1 \dots n}$ ，随机排雷后得到序列 $\sigma=(\sigma_1, \dots, \sigma_n)$ 。依次从 $\sigma_1$ 到 $\sigma_n$ 遍历该随机序列。
1. Borders。使用这个公式将标称值的转换成数值，按标签所属的桶分别计算 $i\in[0,k-1]$ 。 $ctr_i=\frac{countInClass + prior }{totalCount + 1}$ 假设当前遍历到 $\sigma_k$ $(k < n)$ ，对应的标称特征的值是

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。