在对数据进行预处理时,应该怎样处理类别型特征?

机器学习各种资料涉及到的知识,在我不理解和认为不对的地方做了补充和修改,若有错误欢迎指教!
常用的基本处理方法:
序号编码( Ordinal Encoding ) :
序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,并且存在“高>中>低” 的排序关系。序号
编码会按照大小关系对类别型特征赋予一个数值10 , 例如高表示为3 、中表示为2、低表示为1 , 转换后依然保留了大小关系。

独热编码( One-hot Encoding ) :
独热编码通常用于处理类别间不具有大小关系的特征。例如血型,—共有4 个取值( A型血、:B 型血、AB型血、0 型血),独热编码会把血型变成一个4 维稀疏向量,A型血表示为( 1 , 0, 0, 0 ) ,B型血表示为( 0, 1,0, 0 ) , AB型表示为( 0, 0, 1,0 ) , 0型血表示为( 0, 0,0, 1 ) 。对于类别取值较多的情况下使用独热编码需要注意以下问题。
( 1 ) 使用稀疏向量来节省空间。在独热编码下,特征向量只有某一维取值为1 ,其他位置取值均为0。因此可以利用向量的稀疏表示有效地节省空间,并且目前大部分的算法均接受稀疏向量形式的输入。
( 2 ) 配合特征选择来降低维度。高维度特征会带来几方面的问题。一是在X:近邻算法中,高维空间下两点之间的距离很难得到有效的衡量;二是在逻辑回归模型中, 参数的数量会随着维度的增高而增加,容易引起过拟合问题;三是通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度。

二进制编码( Binary Encoding ):
二进制编码主要分为两步,先用序号编码给每个类别赋予一个类别然后将类别10 对应的二进制编码作为结果。以A, B, AB,O血型为例, 表1.1 是二进制编码的过程。A型血的ID 为1 ,二进制表示为001 ; B 型血的ID为2 , 二进制表示为010 ; 以此类推可以得到型血和0型血的二进制表示。可以看出,二进制编码本质上是利用二进制对10 进行哈希映射,最终得到0/1 特征向量,且维数少于独热编码,节省了存储空间。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值