《百问机器学习》第二问:什么是类别型特征?数据预处理时怎样处理类别型特征?处理类别型特征的编码方式有哪几种

本文介绍了类别型特征的概念,如性别、血型等,并详细阐述了在数据预处理中如何处理这类特征。主要编码方式包括序号编码、独热编码和二进制编码。独热编码适用于类别间无序的情况,但需注意高维度可能导致的问题。二进制编码通过类别ID的二进制表示进行转换。此外,还提及了其他编码方式如Helmert对比、Sum对比和多项式对比。
摘要由CSDN通过智能技术生成

目录

1. 什么是类别型特征?

2. 处理类别型特征的编码方式有哪几种?

 2.1 序号编码

2.2 独热编码

2.2.1对于类别取值比较多的情况下,使用独热编码注意以下问题:

2.3 二进制编码

3除了这些编码还有哪些?


 1. 什么是类别型特征?

类别型特征(Categorical Feature)主要指的是性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。

类别型特征原始输入通常是字符串变量,除了决策树等少数模型能够直接处理字符串形式输入,对于逻辑回归、支持向量机模型而言,类别型特征必须经过处理转换成数值型特征才能正确工作。

2. 处理类别型特征的编码方式有哪几种?

  1. 序号编码(Ordinal Encoding)
  2. 独热编码(One-hot Encoding)
  3. 二进制编码(Binary Encoding)

 2.1 序号编码

序号编码通常是处理具有大小关系的数据。

例如成绩:分为高、中、低,并且存在排序关系,这样编码赋值后,比如高3,中2,低1转换后依然保证了大小关系。

2.2 独热编码

独热编码用于处理类比之间不具有大小关系的特征。

比如血型4种(A、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值