在机器学习中为什么要进行 One-Hot 编码？

最新推荐文章于 2022-06-17 10:05:58 发布

xxxHere111

最新推荐文章于 2022-06-17 10:05:58 发布

阅读量754

点赞数 1

分类专栏：神经网络深度学习机器学习文章标签： one-hot

原文链接：https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/

版权

深度学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

32 篇文章 0 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

什么是类别数据？

类别数据是一种只有标签值而没有数值的变量。
它的值通常属于一个大小固定且有限的集合。
类别变量也常被称为标称值（nominal）。
下面举例说明：

宠物（pet）变量包含以下几种值：狗（dog）、猫（cat）。
颜色（color）变量包含以下几种值：红（red）、绿（green）、蓝（blue）。
位次（place）变量包含以下几种值：第一（first）、第二（second）和第三（third）。

以上例子中的每个值都代表着一个不同的类别。
有些类别彼此间存在一定的自然关系，比如自然的排序关系。
上述例子中，位次（place）变量的值就有这种自然的排序关系。这种变量被称为序数变量（ordinal variable）。

类别数据有什么问题？

有些算法可以直接应用于类别数据。

比如，你可以不进行任何数据转换，将决策树算法直接应用于类别数据上（取决于具体实现方式）。

但还有许多机器学习算法并不能直接操作标签数据。这些算法要求所有的输入输出变量都是数值（numeric）。
通常来说，这种限制主要是因为这些机器学习算法的高效实现造成的，而不是算法本身的限制。

但这也意味着我们需要把类别数据转换成数值形式。如果输出变量是类别变量，那你可能还得将模型的预测值转换回类别形式，以便在一些应用中展示或使用它们。

更多信息参考：
https://juejin.im/post/5d15840e5188255c23553204

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在机器学习中为什么要进行 One-Hot 编码？

什么是类别数据？类别数据是一种只有标签值而没有数值的变量。它的值通常属于一个大小固定且有限的集合。类别变量也常被称为标称值（nominal）。下面举例说明：宠物（pet）变量包含以下几种值：狗（dog）、猫（cat）。颜色（color）变量包含以下几种值：红（red）、绿（green）、蓝（blue）。位次（place）变量包含以下几种值：第一（first）、第二（second）和第三（third）。以上例子中的每个值都代表着一个不同的类别。有些类别彼此间存在一定的自然关系，比如自然的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。