LabelEncoder()与OneHotEncoder()关系及区别汇总

联系

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

区别:

  • 在Scikit-Learn 0.20之前,如果要用独热编码(One Hot Encoder)处理类别变量,需要先用标签编码(Label Encoder),将类别变量转化为整数值。
    在Scikit-Learn 0.20及其以后,OneHotEncoder()模块可以直接处理字符串的类别变量,不再需要先用标签编码转化。
  • LabelEncoder()处理后返回的类型是NumPy的array形式,但是OneHotEncoder()处理后返回的是稀疏数组(稀疏矩阵形式),好处是可以节约内存,因为它是需要储存数值为1对应的位置,其余为0的则可以忽略。可用toarray()方法将稀疏数组转化为可处理的Numpy的数组。
data_encoded.toarray()

老版本直接使用独热编码方法:
如果想在老版本(Scikit-Learn < 0.20)中直接使用独热编码,可使用以下方法:

from future_encoders import OneHotEncoder
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值