类别型特征的常见处理方法

-类别型特征
类别型特征(Categorical Feature)主要是指只在有限选项内取值的特征。例如性别(男、女)、成绩等级(A、B、C)等。通常以字符串形式输入,除了决策树等少数模型能直接处理字符串形式的输入,逻辑回归、支持向量机等模型的输入必须是数值型特征才能正确工作。

-独热编码(One-hot Encoding)
常用于处理特征不同类别间具有大小关系的数据。例如成绩等级(A、B、C),对应成绩越来越好。转换后为(3,2,1),依然保留大小关系;
-序号编码(Ordinal Encoding
常用于处理特征不同类别间不具有大小关系的数据
-二进制编码(Binary Encoding)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值