One-hot编码

处理分类数据(有限个字符型的数据)方法:
1.删除非数值型数据(也就是这些分类数据)drop(object);
2.标签编码;
from sklearn.preprocessing import LabelEncoder
label_encoder=LabelEncoder()
label_encoder.fit([])(拟合)
label_encoder.transform([])(转化)
//fit_transform()
3.独热编码。
独热编码:
对分类(类别)数据:使用标签编码包含了标签的大小关系,而他们实际只是平行关系,会影响模型的分析。
使用独热编码,只增加维度。
pd.get_dummies(data,columns)
dummies:虚拟变量
from sklearn.preprocessing import OneHotEncoder
encoder_one=OneHotEncoder(handle_unknown=‘ignore’,sparse=False) #def独热编码器
encoder_data=encoder.fit_transform(pd.DataFrame(data)) #拟合转换数据
需要恢复索引

独热里项过多不可取,一般不超过37

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值