作者|Samuele Mazzanti
编译|VK
来源|Towards Data Science
原文链接: https:// towardsdatascience.com/ beyond-one-hot-17-ways-of-transforming-categorical-features-into-numeric-features-57f54f199ea4
![2ec8f1971aed1658405dc6aa1a165770.png](https://i-blog.csdnimg.cn/blog_migrate/9c6cd6367cf001461c1fa723960c4af3.jpeg)
“你知道哪种梯度提升算法?”
“Xgboost,LightGBM,Catboost,HistGradient。”
“你知道哪些离散变量的编码?”
“one-hot”
在一次数据科学面试中听到这样的对话我不会感到惊讶。不过,只有一小部分数据科学项目涉及机器学习,而实际上所有这些项目都涉及离散数据。
离散变量的编码是将一个离散列转换为一个(或多个)数字列的过程。
这是必要的,因为计算机处理数字比处理字符串更容易。为什么?因为用数字很容易找到关系(比如“大”、“小”、“双”、“半”)。然而当给定字符串时,计算机只能说出它们是“相等”还是“不同”。
然而,尽管离散变量的编码有影响,但它很容易被数据科学从业者忽视。
离散变量的编码是一个令人惊讶的被低估的话题。
这就是为什么我决定深化编码算法的知识。我从一个名为“category_encoders”的Python库开始(这是Github链接:https://github.com/scikit-learn-contrib/category_encoders)。 使用它非常简单:
!pip install category_encoders
import category_encoders as ce
ce.OrdinalEncoder().fit_transform(x)
这篇文章是对库中包含的17种编码算法的演练。对于每种算法,我用几行代码提供了简短的解释和Python实现。其目的不是要重新发明轮子,而是要认识算法是如何工作的。
并非所有编码都是相同的
我根据17种编码算法的一些特点对它们进行了分类。类似决策树:
![c31e687acad1baa90beb2bca2b120a9d.png](https://i-blog.csdnimg.cn/blog_migrate/9e88946007055ed862b139af805f5125.png)
分割点为:
- 监督/无监督:当编码完全基于离散列时,它是无监督的。如果编码是基于原始列和第二列(数字)的某个函数,则它是监督的。
- 输出维度:分类列的编码可能产生一个数值列(输出维度=1)或多个数值列(输出维度>1)。
- 映射:如果每个等级都有相同的输出-无论是标量(例如OrdinalEncoder)还是数组(例如onehotcoder),那么映射是唯一的。相反,如果允许同一等级具有不同的可能输出,则映射不是唯一的。
17种离散编码算法
1.OrdinalEncoder
每个等级都映射到一个整数,从1到L(其中L是等级数)。在这种情况下,我们使用了字母顺序,但任何其他自定义顺序都是可以接受的。
sorted_x = sorted(set(x))
ordinal_encoding = x.replace(dict(zip(sorted_x, range(1, len(sorted_x) + 1))))
![6559313ed9195d0f730c0eb7463e3bf5.png](https://i-blog.csdnimg.cn/blog_migrate/25001854e032ee7b4589a24f0c58596e.png)
你可能认为该编码是没有意义的,尤其是当等级没有内在顺序的时候。你是对的!实际上,它只是一种方便的表示,通常用于节省内存,或作为其他类型编码的中间步骤。
2.CountEncoder
每个等级都映射到该级别的观察数。
count_encoding = x.replace(x.value_counts().to_dict())
![e8148a7e9a49c928fc9fa9a7b5651adf.png](https://i-blog.csdnimg.cn/blog_migrate/d4f0e0207076d4eadde1b98604b309f0.png)
这种编码可以作为每个级别的“可信度”的指标。例如,一个机器学习算法可能会自动决定只考虑其计数高于某个阈值的级别所带来的信息。
3.OneHotEncoder
编码算法中最常用的。每个级别映射到一个伪列(即0/1的列),指示该行是否携带属于该级别。
one_hot_encoding = ordinal_encoding.apply(lambda oe: pd.Series(np.diag(np.ones(len(set(x))))[oe - 1].astype(int)))