【机器学习案例4】为机器学习算法编码分类数据【含源码】

目录

编码分类数据

序数编码

标签编码

一次性编码

目标编码

目标编码的优点

目标编码的缺点


在现实生活中,收集的原始数据很少采用我们可以直接用于机器学习模型的格式,即数值型数据。因此,需要进行一些预处理,以便以正确的格式呈现数据、选择信息丰富的数据或降低其维度,以便能够最大限度地提取数据。

在这篇文章中,我们将讨论对原始数据的编码方式,以便能够使用分类数据作为我们的 ML 模型的特征,还将讨论数据编码的类型以及对应的适用条件

编码分类数据

数值数据,顾名思义,具有仅包含数字(整数或浮点数)的特征。另一方面,分类数据的变量包含标签值(文本)而不是数值。机器学习模型只能接受数值输入变量。如果我们的数据集包含分类数据而不是数值数据,会发生什么?

然后,我们必须如上图所示将包含分类变量的数据转换为数字,然后才能训练 ML 模型。这称为数据编码

两种最流行的编码技术是序数编码和One-Hot编码。

  • 序数编码:此技术用于对具有自然排名顺序的分类变量进行编码。例如,好、非常好、优秀可以编码为123
  • 29
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值