CatBoost 模型中标称特征的处理

标称属性

标称属性的值仅仅只是不同的名字,标称值只提供只够的信息以区分对象。只可以使用的数学运算符 = = = ̸ = \not = ̸=,所以不能在二分决策树中直接使用。

标称属性的处理

独热编码

标称属性的一般处理方法是 one hot encoding(独热编码),可以在预处理阶段或者训练期间完成。
CatBoost 的论文提到,后者可以在训练时间方面更有效地实现,并且在CatBoost中实现了这种方式。

根据标签转化成数字

主要思想是使用训练数据集中的标签值计算一些统计信息。
假设我们有一个观察数据集 D = ( X i , Y i ) i = 1 … n \mathcal{D} = {(X_i ,Y_i )}_{i=1 \dots n} D=(Xi,Yi)i=1n,其中 X i = ( x i , 1 , … , x i , m ) X_i = (x_{i,1} ,\dots,x{i,m}) Xi=(xi,1,,xi,m)是一个包含 m m m个特征的向量。一些是数值型特征,一些是标称型特征。 Y i ∈ R Y_i \in \mathbb{R} Yi

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值