数据预处理（三）：字符型特征处理

最新推荐文章于 2023-12-27 14:51:51 发布

猪皮头

最新推荐文章于 2023-12-27 14:51:51 发布

阅读量6.1k

点赞数 7

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_42189966/article/details/106781753

版权

本文介绍了在机器学习中，如何对字符型特征进行预处理。内容包括分类编码和独热编码两种方法，适用于有序和无序的分类特征。标签编码用于无顺序的类别，如【收入低于5k，收入高于5k】；而独热编码适用于无序类别，如颜色。独热编码可能导致特征空间膨胀，可以结合PCA降维。在实际应用中，树模型对独热编码的需求较低。

摘要由CSDN通过智能技术生成

字符型特征处理

一、介绍

1.原因

逻辑回归、svm、k近邻等算法只能处理数值型数据，而不能处理文字，因此有时候我们应对文字型数据进行编码，转化为数值型数据。在sklearn中，除了专用于处理文字的算法，其他算法输入数据时全部要求输入数组或矩阵，不能导入文字型数据。

2.两种编码方式

当分类变量的取值之间有大小意义时，如【小学、初中、大学】，可以使用分类编码，将其编码为【0,1,2】。
当分类变量的取值之间没有大小意义时，如【蓝色、黄色、红色】，则使用独热编码。

二、分类编码

1.标签的编码

一般来说，标签都使用分类编码。如【收入低于5k，收入高于5k】，可以使用sklearn.preprocessing.LabelEncoder转换为分类数值【0，1】。

from sklearn.preprocessing import LabelEncoder
#一步到位的写法
data.loc[:,-1] = LabelEncoder().fit_transform(data.loc[:,-1]) 

# 分部写法
y =

最低0.47元/天解锁文章

猪皮头

关注

7
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
数据预处理（三）：字符型特征处理

离散特征编码一、介绍1.原因逻辑回归、svm、k近邻等算法只能处理数值型数据，而不能处理文字，因此有时候我们应对文字型数据进行编码，转化为数值型数据。在sklearn中，除了专用于处理文字的算法，其他算法输入数据时全部要求输入数组或矩阵，不能导入文字型数据。2.两种编码方式当分类变量的取值之间有大小意义时，如【小学、初中、大学】，可以将其编码为【0,1,2】。当分类变量的取值...
复制链接

扫一扫