特征编码方法-OneHotEncoding

huobumingbai1234

已于 2022-06-01 20:42:52 修改

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：机器学习聚类算法

于 2018-12-11 22:24:27 首次发布

本文链接：https://blog.csdn.net/huobumingbai1234/article/details/84962629

版权

机器学习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

对于一些特征工程方面，有时会用到LabelEncoder和OneHotEncoder。

一、为什么需要这种编码方式

在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”，如果我们用简单的0,1代替就会有问题，因为男女之间不存在大小关系。

二. 为什么使用one-hot编码来处理离散型特征?

1.使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

2.将离散特征通过one-hot编码映射到欧式空间，是因为，在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

3.将离散型特征使用one-hot编码，确实会让特征之间的距离计算更加合理。比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。

4.对离散型特征进行one-hot编码是为了让距离的计算显得更加合理。

5.将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码，比如，该离散特征共有1000个取值，我们分成两组，分别是400和600,两个小组之间的距离有合适的定义，组内的距离也有合适的定义，那就没必要用one-hot 编码

离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1

三、OneHotEncoding具体使用实例

我的原数据是这个样子

运动类型（逗号隔开）
13
1
23
2
1234
134
3
234
6
24
34
4
235
123
25
5
236
12
35
54
64
14
26
2354
36
264
56
23564
126
1235
254
15
357
354

具体代码：

import pandas as pd
from sklearn import preprocessing  


data = pd.read_csv('k-means.csv',encoding='utf-8')
X_1 = data[['type']]

enc = preprocessing.OneHotEncoder()
X_1_new = enc.fit(X_1)
X_2_new = X_1_new.transform(X_1).toarray()
print(X_2_new)

然后结果如下，由于结果太长没显示完全：

四、独热编码优缺点

优点：独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。

缺点：当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

四. 什么情况下(不)用独热编码？

用：独热编码用来解决类别型数据的离散值问题，
不用：将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。 Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。

huobumingbai1234

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
特征编码方法-OneHotEncoding

对于一些特征工程方面，有时会用到LabelEncoder和OneHotEncoder。一、为什么需要这种编码方式在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”，如果我们用简单的0,1代替就会有问题，因为男女之间不存在大小关系。二. 为什么使用one-hot编码来处理离散型特征?1.使用on...
复制链接

扫一扫