在对数据进行预处理时，应该怎样处理类别型特征？

最新推荐文章于 2024-08-23 10:00:00 发布

光英的记忆

最新推荐文章于 2024-08-23 10:00:00 发布

阅读量3.2k

点赞数 1

分类专栏：统计算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29678299/article/details/88675331

版权

算法同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

类别型主要指性别，血型等只有在有限选项内取值的特征。类别型特征原始输入通常是字符串形式，除了决策树等少量模型能直接处理字符串形式的输入，对于逻辑回归，支持向量机等模型来说，类别型特征必须经过处理转换成数值型特征才能正确工作。

在对数据进行预处理时，应该怎样处理类别型特征？

序号编码 Ordinal Encoding

序号编码通常处理类别间具有大小关系的数据。例如成绩，可以分为低，中，高三档，并且存在高>中>低的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值ID，例如高，中，低表示 3，2，1转换后依然保留大小关系。

2.独热编码One-hot Encoding

独热编码通常处理类别间不具有大小关系的特征。例如血型，一共有4取值（A,B,AB,O),独热编码会把血型变成一个4维稀疏向量。

A表示（1000），B表示（0100），AB(0010) ,O表示（0001）

使用稀疏向量来节省空间，在独热编码下，特征向量只有某一维取值为1，其他位置取值均为0.因此可以利用向量的稀疏表示有效的节省空间，并且目前大部分算法都支持稀疏向量的输入。

配合特征选择来降低维度。高纬度特征会带来几方面的问题。

一是K近邻算法中，高维空间下两点之间的距离很难得到有效的衡量；

二是在逻辑回归模型中，参数的数量会随着维度的增高而增加，容易引起过拟合的问题；

三是通常只有部分维度是对分类，预测有帮助，因此可以考虑配合特征选择来降低维度；

3.二进制编码Binary Enconing

二进制编码先用序号编码给每个类别赋予一个类别ID ，然后将类别ID 对应的二进制编码作为结果。

二进制编码本质利用了二进制对ID 进行哈希映射，最终得到0/1特征向量，且维度小于独热编码，节省了存储空间

光英的记忆

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。