对类别变量进行处理的方法 | 概念 | 缺点 | 备注 |
label encoding | 随机赋予类别变量数值 | 赋值难以解释,不适用与类别变量有高低之分的场景(如本科生、硕士研究生、博士生)以及对数值大小敏感的模型(如逻辑回归、SVM等) | 当变量是无序变量的时候,label encoding比one-hot encoding 好 |
one-hot encoding | 将类别变量展开成特征列名,用0/1表示样本是否具备该特征 | 当类别特别多时,特征空间会变得很大 |
label encoding和one hot encoding简单对比
最新推荐文章于 2024-07-28 21:01:31 发布
本文主要探讨了在机器学习预处理阶段,label encoding与one hot encoding两种编码方式的使用场景和区别。label encoding是对类别特征进行数值化,而one hot encoding则将类别特征转换为二进制形式,适用于多分类问题。理解这两种编码方法对于模型训练和性能优化至关重要。
摘要由CSDN通过智能技术生成