标称属性
标称属性的值仅仅只是不同的名字,标称值只提供只够的信息以区分对象。只可以使用的数学运算符 = = =和 ̸ = \not = ̸=,所以不能在二分决策树中直接使用。
标称属性的处理
独热编码
标称属性的一般处理方法是 one hot encoding(独热编码),可以在预处理阶段或者训练期间完成。
CatBoost 的论文提到,后者可以在训练时间方面更有效地实现,并且在CatBoost中实现了这种方式。
根据标签转化成数字
主要思想是使用训练数据集中的标签值计算一些统计信息。
假设我们有一个观察数据集 D = ( X i , Y i ) i = 1 … n \mathcal{D} = {(X_i ,Y_i )}_{i=1 \dots n} D=(Xi,Yi)i=1…n,其中 X i = ( x i , 1 , … , x i , m ) X_i = (x_{i,1} ,\dots,x{i,m}) Xi=(xi,1,…,xi,m)是一个包含 m m m个特征的向量。一些是数值型特征,一些是标称型特征。 Y i ∈ R Y_i \in \mathbb{R} Yi