数据分析预处理 -字符型类别变量(string)

在数据分析时,会遇到一些非数值型的类别变量,例如字符串类型(string)。比如,西瓜的色泽:青绿、浅白、乌黑等等…直接放在svm、决策树或者贝叶斯分类器时,不方便处理,也直接套用sklearn中的内置算法。因而在预处理时需要对他们做相应的处理。

一般可以把类别数据分为:无序和有序两类。
有序:比如衣服尺码,S、M、L、XL,是有大小的;再比如拥堵指数,数值由0变化到4随拥堵加剧
无序:比如衣服颜色,黑、白、黄、蓝、绿,是没有大小(优劣)序列的类别

(1)有序序列

我们可以用map函数,将字符型类别替换成有大小顺序的数值。

# 定义一个DataFrame数据
data = pd.DataFrame([
["green", "S", 100,"label1"],
["blue", "M", 110,"label2"],
["red", "X", 120,"label3"],
  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值