对类别变量进行处理的方法 | 概念 | 缺点 | 备注 |
label encoding | 随机赋予类别变量数值 | 赋值难以解释,不适用与类别变量有高低之分的场景(如本科生、硕士研究生、博士生)以及对数值大小敏感的模型(如逻辑回归、SVM等) | 当变量是无序变量的时候,label encoding比one-hot encoding 好 |
one-hot encoding | 将类别变量展开成特征列名,用0/1表示样本是否具备该特征 | 当类别特别多时,特征空间会变得很大 |
label encoding和one hot encoding简单对比
最新推荐文章于 2024-05-28 17:00:50 发布