One-Hot（独热编码）

最新推荐文章于 2024-09-04 10:52:36 发布

慕纤乐

最新推荐文章于 2024-09-04 10:52:36 发布

阅读量202

点赞数

文章标签：机器学习数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63610379/article/details/132056315

版权

注：本文是作者根据个人理解所写，仅供参考

为什么使用独热编码？

在机器学习的时候，我们经常会遇到一个特征或者多个特征并不是一个连续值，而是一个分类值，这种情况对于机器学习时训练模型时没有意义，所以我们才引入了 独热编码

举个例子：

如果在预测某种水果销量的时候，水果的颜色是一个反映特征的指标，我们想使用颜色以及若干个其他的特征来预测这种水果的销量，你会如何把这个指标量化？

颜色：红色，黄色，青色

很简单，如果是某个特征，就把这个特征标为1，其他的置为0就好了。

[1,0,0]
[0,1,0]
[0,0,1]

通过这种方式我们就能够将一个分类变量转换成一个或者多个新特征，以方便后面对神经网络的搭建。

使用One-Hot编码计算距离

如果我们再深入看一下，[0,1,0] 像不像是空间中的一个坐标？

没错，使用独热编码还有一个好处就是对很多算法都十分友好，因为在很多算法中都无法根据类别来提取特征，而独热编码正是为了将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

很多算法都是基于向量空间中的度量来进行计算的，离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的。就可以跟对连续型特征的归一化方法一样。

对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1，也可以用于计算欧式距离，曼哈顿距离，余弦相似度等。

使用One-Hot有什么好处？

举个例子：如果某种分类数据有6种取值：001，010，011，100，101，110

如果我们使用独热编码结果就是：000001，000010，000100，001000，010000，100000

发现没有，原本三位的数据变成了六位。

事实上，使用独热编码的确可以起到扩充特征的作用，除此之外，这样得到的六个表示是互斥的，也可以使数据变得更加稀疏。

注意：使用独热编码能够扩充每种特征，相应的，我们计算的数据量也会成倍增加。

One-Hot与哑变量（虚拟变量）有什么区别？

本质区别：One-Hot是用于解决类别型数据的离散值问题，让距离计算更合理，而虚拟变量是一个统计学概念，是用0和1表示某个特征的两个不同状态或类别

One-Hot编码可以用于处理具有多个类别的离散特征，每个类别都对应一个新的二元特征。而哑变量通常用于处理具有两个类别的离散特征，只需要一个二元特征来表示。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
One-Hot（独热编码）

在机器学习的时候，我们经常会遇到一个特征或者多个特征并不是一个连续值，而是一个分类值，这种情况对于机器学习时训练模型时没有意义，所以我们才引入了举个例子：如果在预测某种水果销量的时候，水果的颜色是一个反映特征的指标，我们想使用颜色以及若干个其他的特征来预测这种水果的销量，你会如何把这个指标量化？很简单，如果是某个特征，就把这个特征标为1，其他的置为0就好了。通过这种方式我们就能够将一个分类变量转换成一个或者多个新特征，以方便后面对神经网络的搭建。
复制链接

扫一扫

慕纤乐 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

162万+: 周排名

98万+: 总排名

1084: 访问

: 等级

40: 积分

2: 粉丝

0: 获赞

4: 评论

2: 收藏

私信

关注

热门文章

最新评论

One-Hot（独热编码）
CSDN-Ada助手: 恭喜您写了关于“One-Hot（独热编码）”的第三篇博客！您的持续创作精神真是令人佩服。您的文章内容详实且易于理解，对于理解独热编码的概念和应用有很大帮助。希望您能继续分享更多关于数据编码和处理的技术知识，这将进一步拓宽读者们的视野。对于下一步的创作建议，我想谦虚地提出一个想法。或许您可以考虑将独热编码与其他常用的编码方法进行比较，探讨它们在不同场景下的优势和劣势。此外，您还可以进一步深入探讨独热编码的应用领域，例如在自然语言处理或图像识别中的应用案例。相信这些内容将为读者们带来更多的价值和启发。再次恭喜您的创作，期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
从代码解释GoogleNet Inception-v4
CSDN-Ada助手: 恭喜您写了第四篇博客！标题看起来非常吸引人，我期待能够从您的博客中了解更多关于GoogleNet Inception-v4的内容。您的持续创作展示了您对于技术的热情和专注，这是非常值得赞赏的。在下一步的创作中，我建议您可以更加深入地解释GoogleNet Inception-v4的原理和应用场景，以帮助读者更好地理解该模型的优势和局限性。此外，如果您能够结合实际案例或者提供一些实用的代码示例，将会给读者带来更大的帮助。谦虚的语气并不代表您的博客内容不够出色，相反，这种态度会让您的读者感受到您对于学习和分享的谦逊态度。期待您的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
使用Keras模块搭建一个简单的神经网络模型
CSDN-Ada助手: 非常棒的博客！你的标题和摘要很吸引人，我鼓励你继续创作下去。关于你所写的内容，我想分享一些扩展知识和技能，希望对你有帮助。除了使用Keras搭建神经网络模型外，你还可以了解以下内容： 1. 激活函数的选择：除了常见的ReLU，还有Sigmoid、Tanh等激活函数可以尝试，每种激活函数都有其适用的场景。 2. 正则化技术：L1、L2正则化和Dropout等方法可以帮助防止过拟合，提高模型的泛化能力。 3. 数据增强：通过对训练数据进行随机变换、旋转、平移等操作，可以增加数据的多样性，提升模型的鲁棒性。 4. 模型调参：学习率、批大小、迭代次数等超参数的选择对模型性能有很大影响，可以通过交叉验证等方法进行调优。尽管我只是提供了一些简单的建议，但我相信你能够在这个基础上继续深入研究和探索。祝你在使用Keras搭建神经网络模型的过程中取得更多进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
多路查找树
CSDN-Ada助手: 非常感谢您的分享，多路查找树是一个非常有趣的数据结构，我觉得可以进一步深入探讨其实现及应用。建议您可以写一篇关于多路查找树在网络路由算法中的应用的技术博文，这样的文章对其他网络技术爱好者也会有很大帮助。下一篇您可以继续就该主题进行深入探讨，相信会有更多读者受益。期待您的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
多路查找树
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。