你真的懂one-hot编码吗？

最新推荐文章于 2024-08-08 12:31:07 发布

Li_yi_chao

最新推荐文章于 2024-08-08 12:31:07 发布

阅读量9.4k

点赞数 10

分类专栏：小翊总结

本文链接：https://blog.csdn.net/Li_yi_chao/article/details/80852701

版权

小翊总结专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一个很隐晦的问题

在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间，所以往往默认数据数据是连续的（可以计算距离？），并且是有序的。但是有时用数字表示的数据并不是有序的，而是随机分配的。

举个例子：有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。

独热编码是啥

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。独热编码恰好是一种解决上述问题的好办法。不过数据也因此变得稀疏。

再看这个问题：男 0 女 1 ——> 男 01 女 10 在两位寄存器中，似乎赋予了男女两个属性以顺序，不再是随机分配了。

独热编码的好处：

解决了分类器不好处理属性数据的问题，让特征之间的距离计算更加合理
在一定程度上也起到了扩充特征的作用，比如性别本身是一个特征，经过one hot编码以后，就变成了男或女两个特征。

3.将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

什么时候不适合编码呢？

1、因为编码的目的是使离散数据变得有序，所以如果特征本身有序（可以计算），则不需要编码。

2、Tree Model 没有特征大小的概念，不太需要编码，如GBDT处理高维稀疏矩阵的时候效果并不好，即使是低维的稀疏矩阵也未必比SVM好

离散数据也可以归一化？

离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

独热编码实现方法比较

1、pandas自带的get_dummies()【适合含有字符串类型的数据】

好处： * 1.本身就是 pandas 的模块，所以对 DataFrame 类型兼容很好.
* 2.无论你的列是字符型还是数字型都可以进行二值编码.
* 3.能根据用户指定，自动生成二值编码后的变量名.

问题：get_dummies 没有sklearn 的 transformer方法，所以一旦测试集中出现了训练集未曾出现过的特征取值，简单地对测试集、训练集都用 get_dummies 方法将导致数据错误。也无法像 sklearn 的transformer一样可以输入到pipeline中进行流程化地机器学习过程。

2、sklearn的OneHotEncoder()【适合只含数值型的数据】

通过 OneHotEncoder() 自带的 feature_indices_ 可以知道哪几列对应哪个原来的特征

使用 numpy.hstack() 将多次结果拼接起来得到变换后的结果

问题：不能直接编码字符串类型数据（LabelEncoder() + OneHotEncoder() 可实现，但需数据格式转换）