数据预处理(三):字符型特征处理

本文介绍了在机器学习中,如何对字符型特征进行预处理。内容包括分类编码和独热编码两种方法,适用于有序和无序的分类特征。标签编码用于无顺序的类别,如【收入低于5k,收入高于5k】;而独热编码适用于无序类别,如颜色。独热编码可能导致特征空间膨胀,可以结合PCA降维。在实际应用中,树模型对独热编码的需求较低。
摘要由CSDN通过智能技术生成

字符型特征处理

一、介绍

1.原因

逻辑回归、svm、k近邻等算法只能处理数值型数据,而不能处理文字,因此有时候我们应对文字型数据进行编码,转化为数值型数据。在sklearn中,除了专用于处理文字的算法,其他算法输入数据时全部要求输入数组或矩阵,不能导入文字型数据。

2.两种编码方式

当分类变量的取值之间有大小意义时,如【小学、初中、大学】,可以使用分类编码,将其编码为【0,1,2】。
当分类变量的取值之间没有大小意义时,如【蓝色、黄色、红色】,则使用独热编码。

二、分类编码

1.标签的编码

一般来说,标签都使用分类编码。如【收入低于5k,收入高于5k】,可以使用sklearn.preprocessing.LabelEncoder转换为分类数值【0,1】。

from sklearn.preprocessing import LabelEncoder
#一步到位的写法
data.loc[:,-1] = LabelEncoder().fit_transform(data.loc[:,-1]) 

# 分部写法
y =
  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值