一、分类数据/变量VS顺序数据/变量的定义
分类数据:分类数据指某些数据属性只能归于某一类别的非数值型数据,例如性别男和女就是分类数据。
注意:分类数据没有明显的高/低/大/小等包含等级/顺序/排序/好坏等逻辑的划分。只是用来分区两个或者多个具有相同或相似价值的属性。
顺序数据:只能归于某一有序类别的非数值型数据,例如学历:小学/初中/高中/大专/本科/研究生等,这个是有明显的排序规律和逻辑层次的划分的。
二、标志转化方式处理分类数据和顺序数据
原因:很多模型和算法是没有办法直接使用非数值型变量或者数据进行变成计算的;
转化逻辑:将分类数据或顺序数据的值域从一列多值的形态转换为多列只包含真值的情况。
user_id | 性别 |
3588641 | 男 |
4562789 | 女 |
2324112 | 女 |
user_id | 用户性别——男 | 用户性别——女 |
3588641 | 1 | 0 |