使用sklearn来处理类别数据

本文介绍了如何使用sklearn处理类别数据,包括有序特征的映射、类标的编码和标称特征的独热编码。有序特征通过整数映射,类标使用LabelEncoder编码,而标称特征采用OneHotEncoder进行无意义大小关系的编码,避免信息扭曲。
摘要由CSDN通过智能技术生成

在处理真实的数据集的时候,我们经常会遇见一个或多个的类别数据的特征。类别数据可以被分为标称特征(nominal feature)和有序特征(ordinal feature)。有序特征指的是类别的值是有序的或者是可以排序的,例如,衣服的尺码S、M、X、XL、XXL...就是属于有序特征。再例如,衣服的颜色,黑色、蓝色、白色、黄色...这些就属于标称特征。

一、有序特征的映射

我们可以将有序特征装换成为整数,整数包含一定的顺序。没有一个合适的方法可以自动将尺寸特征转换成为正确的顺序,所以我们需要手动来指定相应的映射关系。例如,S:1,M:2,X:3,我们可以利用pandas的map方法来实现。

import pandas as pd

if __name__ == "__main__":
    #定义衣服尺寸的映射关系
    size_mapping = {"S":1,"M":2,"X":3,"XL":4}
    #定义一个DataFrame数据
    data = pd.DataFrame([
        ["green","S",100],
        ["blue", "M", 110],
        ["red", &#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

修炼之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值