数据预处理1：分类特征编码

最新推荐文章于 2024-01-08 23:15:04 发布

章光辉

最新推荐文章于 2024-01-08 23:15:04 发布

阅读量550

点赞数

本文链接：https://blog.csdn.net/weixin_39334709/article/details/105265954

版权

背景音乐：We Don't Talk Anymore

很多时候，在我们拿到的数据集里，特征不都是连续的值，而是由某些离散化取值的数据组成。例如，性别特征可以具有如下取值：["male", "female"]，天气特征有如下取值：["rainy", "sunny", "snowy"...]。

1. 数字化编码LabelEncoder

这样的特征是无法直接被模型识别的，因此需要将这些特征转换为数学模型能动的语言，一个很容易想到的方法就是，对这些特征进行数字化，也就是编号，比如，["male", "female"]可以用[0, 1]表示，["rainy", "sunny", "snowy"...]可以用[0,1, 2, ...]表示。总之，对于一个有N个类别的特征，总是可以用[0, N-1]之间的连续整数进行编号。

# 用sklearn实现
from sklearn.preprocessing import LabelEncoder
Le = LabelEncoder()  # 构造编码器
Le.fit(['sunny','rainy','snowy'])  # 训练编码器
Le.classes_  # 等于array(['rainy', 'snowy', 'sunny'])
Le.transform(['sunny'])  # 等于array([2])

2. 独热编码OneHotEncoder

上述的编码方式，归根结底，只是把离散型数据换了个表达方式，本质上还是不连续的。而且如果直接用的话，容易被当成是连续的数值型数据进行处理，造成错误，除非编码后得到的数据连续性是有实际意义的。

对此，我们可以选择用独热编码来解决。通俗地讲，对于一个有N个类别的特征，总是可以构造N个新特征来唯一表示，比如，对于性别特征可以构造两个新特征，两个新特征的取值分别为："male"→[1, 0]，"female"→[0, 1]。总之，这N个新特征，在任何情况下，均只有1个特征取值为1，其他特征取值为0，从而保证了唯一性。

# 用sklearn实现
from sklearn.preprocessing import OneHotEncoder
Ohe = OneHotEncoder()  # 构造编码器
Ohe.fit([[1],[2],[3],[1],[3]])  # 训练编码器，输入是LabelEncoder得到的整数型数据
Ohe.active_features_  # 等于array([1, 2, 3])
Ohe.transform([[2]]).toarray()  # 等于array([[ 0.,  1.,  0.]])

3. 为什么要用独热编码

可能你会感觉奇怪，特征取值为[0, 1]，还是离散的呀，何以解决数据的离散问题？那么我们要回到本质上来看，为什么我们不喜欢离散型数据？归根结底，是因为没办法对此类特征进行任何计算。（那你算帮我算算“李雷”和“韩梅梅”的距离有多远？）

而我们将用OneHotEncoder编码后的特征当成是向量，相当于将特征扩展到了欧式空间，那么某个取值就对应着空间里的某个点。在机器学习算法中，特征之间往往要进行相似性的计算，或者距离的计算，这些计算都是在欧式空间里完成的。实际上，大部分机器学习算法是基于向量空间中的度量来进行计算的。所以，OneHotEncoder编码满足了我们对于计算的要求。（为了通俗一点就这么解释啦）

4. 独热编码的优缺点

优点
解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。
缺点
当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且OneHotEncoder + PCA这种组合在实际中也非常有用。

5. 注意事项

上面也讲到了，OneHotEncoder编码的目的是扩展到欧式空间，便于计算距离。但是对于某些算法，不需要计算特征的距离，特征是离散的也OK，那么我们就没必要多此一举。比如决策树算法，以及以决策树为基学习器的各类算法。

章光辉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据预处理1：分类特征编码

背景音乐：We Don't Talk Anymore很多时候，在我们拿到的数据集里，特征不都是连续的值，而是由某些离散化取值的数据组成。例如，性别特征可以具有如下取值：["male", "female"]，天气特征有如下取值：["rainy", "sunny", "snowy"...]。1. 数字化编码LabelEncoder这样的特征是无法直接被模型识别的，因此需要将这些特...
复制链接

扫一扫