将分类变量与顺序变量转化未标志变量——20190705

本文介绍了分类数据和顺序数据的区别,强调了顺序数据的排序逻辑,并解释了为何需要将这类非数值型数据转化为标志变量。转化的目的是使模型和算法能处理非数值型数据,同时避免数字本身带来的排序含义。文章还提到了使用自定义函数和sklearn库进行标志转化的操作,但作者对OnehotEncoding的理解仍有待深入。
摘要由CSDN通过智能技术生成

一、分类数据/变量VS顺序数据/变量的定义

分类数据:分类数据指某些数据属性只能归于某一类别的非数值型数据,例如性别男和女就是分类数据。

注意:分类数据没有明显的高/低/大/小等包含等级/顺序/排序/好坏等逻辑的划分。只是用来分区两个或者多个具有相同或相似价值的属性。

顺序数据:只能归于某一有序类别的非数值型数据,例如学历:小学/初中/高中/大专/本科/研究生等,这个是有明显的排序规律和逻辑层次的划分的。 

二、标志转化方式处理分类数据和顺序数据

原因:很多模型和算法是没有办法直接使用非数值型变量或者数据进行变成计算的;

转化逻辑:将分类数据或顺序数据的值域从一列多值的形态转换为多列只包含真值的情况。

原有用户数据
user_id 性别
3588641
4562789
2324112

 

标志转化后的用户数据
user_id 用户性别——男 用户性别——女
3588641 1 0
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值