sklearn:OneHotEncoder的简单用法

最新推荐文章于 2024-06-20 21:10:40 发布

azago

最新推荐文章于 2024-06-20 21:10:40 发布

阅读量1w

点赞数 3

分类专栏：机器学习文章标签：机器学习 one-hot编码离散型属性归一化 sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjm083121/article/details/94064950

版权

这篇博客介绍了如何使用sklearn库中的OneHotEncoder对离散型特征进行one-hot编码，强调了handle_unknown参数的重要性。通过实例展示了当遇到未知属性值时，设置handle_unknown为'ignore'可以避免程序报错并继续执行。还提到了如何查看编码后的特征意义。

摘要由CSDN通过智能技术生成

将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。

from sklearn.preprocessing import OneHotEncode

enc = OneHotEncoder()

在新版本中，初始化参数有5个，分别是categories、drop、sparse、dtype、handle_unknown。本人目前是初学者，读了官方文档后，认为前四个参数不用理会，默认即可，而handle_unknown是一个比较有用的参数，默认是"error"，但我认为指定为"ignore”更好，这个参数的目的是数据在转化为one-hot编码时，如果遇到一个属性值没有事先指定，程序应该怎么办？如果是error的话，程序就报错停止了，其实不方便处理数据，反而是ignore更好，程序可以继续执行，下面举个例子说明。

enc.fit([["男", 0, 3], ["男", 1, 0], ["女", 2, 1], ["女", 0, 2]])

首先训练一下数据集，提取每一列的属性种类，得到结果如下

print(enc.categories_)
[array(['女', '男'], dtype=object), array([0, 1, 2], dtype=

最低0.47元/天解锁文章

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
sklearn:OneHotEncoder的简单用法

将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。from sklearn.preprocessing import OneHotEncodeenc = OneHotEncoder()在新版本中，初始化参数有5个，分别是c...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。