数据分析预处理 -字符型类别变量(string)

本文探讨了在数据分析中遇到的字符型类别变量(如字符串)的预处理方法。针对有序(如衣服尺码)和无序(如衣服颜色)的类别数据,分别介绍了使用map函数转换和独热编码(One-Hot Encoding)的处理方式。对于无序类别,通过独热编码避免了强加大小关系,并提到了LabelEncoder和OneHotEncoder的使用,以及pandas的get_dummies函数作为替代选项。
摘要由CSDN通过智能技术生成

在数据分析时,会遇到一些非数值型的类别变量,例如字符串类型(string)。比如,西瓜的色泽:青绿、浅白、乌黑等等…直接放在svm、决策树或者贝叶斯分类器时,不方便处理,也直接套用sklearn中的内置算法。因而在预处理时需要对他们做相应的处理。

一般可以把类别数据分为:无序和有序两类。
有序:比如衣服尺码,S、M、L、XL,是有大小的;再比如拥堵指数,数值由0变化到4随拥堵加剧
无序:比如衣服颜色,黑、白、黄、蓝、绿,是没有大小(优劣)序列的类别

(1)有序序列

我们可以用map函数,将字符型类别替换成有大小顺序的数值。

# 定义一个DataFrame数据
data = pd.DataFrame([
["green", "S", 100,"label1"],
["blue", "M", 110,"label2"],
["red", "X", 120,"label3"],
<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值