【特征工程】离散型变量映射成数字

最新推荐文章于 2021-10-05 00:13:48 发布

scxyz_

最新推荐文章于 2021-10-05 00:13:48 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习文章标签：特征工程映射变量替换 python 分类

本文链接：https://blog.csdn.net/sscc_learning/article/details/78775702

版权

在特征工程中，对可分类的字符串特征（如高中、大专、本科等）进行数值映射是常见的处理步骤。将这些值映射为1、2、3等数字，但要注意数字仅作为分类替代，不具比较意义。本文介绍了如何使用Python进行批量替换，处理过程中需注意缺失值的处理，通过pickle保存映射字典以便后续使用。在应用映射时，确保处理新出现的类型，避免转换为缺失值。

摘要由CSDN通过智能技术生成

在特征处理中，有一些特征里面的值是一些可分类的字符串，举个例子：

姓名	学历	收入
小张	高中	4000-5000元
小王	本科	6000-7000元
小李	硕士	8000-9000元
小赵	本科	6000-7000元
…	…	…

学历可分为：高中、大专、本科、硕士等。收入可分为：4000-5000元、6000-7000元等。这些分类有时为中文，容易产生乱码。有些是英文字符，可能比较长，查看不方便。如果样本量非常多的话，保存下来的文件较大。

所以可以将高中→1，大专→2，本科→3 ···；4000-5000元→1、6000-7000元→2 ···

这些特征工程处理上，可以对这种可分类的字符串进行替换，映射成一组数字去替换。但需要注意的是，虽然用数字替换，但数字仅仅是各分类变量的一个替换，并没有真正意义的数字含义，所以不能比较大小，也不能当成连续字符处理。

下面给出了批量替换的代码。

首先是将字符串映射成数字，然后逐列操作。

## 分类变量→数字的映射
def str2num(col_name):
    value_dict = {
   }
    unique_str = np.unique(col_name)
    for num,v

最低0.47元/天解锁文章

scxyz_

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【特征工程】离散型变量映射成数字

在特征处理中，有一些特征如：姓名学历收入小张高中 4000-5000元小王本科 6000-7000元小李硕士 8000-9000元小赵本科 6000-7000元 … … …这些特征在后期处理上，我们一般需要映射成一组数字去替换。不仅省去了中文容易乱码的问题，查看方便
复制链接

扫一扫