数据预处理--One-hot编码

最新推荐文章于 2023-03-01 18:01:57 发布

2020重新做人

最新推荐文章于 2023-03-01 18:01:57 发布

阅读量957

点赞数 2

分类专栏：机器学习文章标签： ont-hot编码数据预处理

本文链接：https://blog.csdn.net/weixin_36637463/article/details/93336484

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

原理

当我们遇到的变量是标称型变量时，也就是无法比较大小、没有序列性的数据时候，就需要独热编码，独热编码通过将数据进行编码，例如装修类型，分为精装、简装、毛坯三种类型，无法比较大小，只能通过独热编码来表示

实现

这里介绍的one-hot编码是使用scikit-learn.preprocessing的OneHotEncoder方法实现
代码如下

from sklearn import preprocessing
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0,2,1,12],[1,3,5,3],[2,3,2,12],[1,2,4,3]])
hh = encoder.transform([[2,3,5,3]]).toarray()

# 输出的结果
array([[0., 0., 1., 0., 1., 0., 0., 0., 1., 1., 0.]])

具体的编码步骤是这样的

第一个要编码的是2，它是第一个特征，将每个特征的第一个特征拿出来非重复计数并排序，得到的分别是[0,1,2]，而2是在第三位，所以第一个特征2的编码是[0,0,1]
第二个是3，排序后是[2,3],所以3的编码是[0,1]
第三个是5，排序后是[1,2,4,5]，所以5的编码是[0,0,0,1]
第四个是3，排序后是[3,12]，所以3编码是[1,0]

这里是将特征变量的每一个特征和每个特征的对应位置进行编码，所以这里出现第二个3和第四个3是不一样的编码

与pandas.get_dummies()的区别

独热编码使用pandas.get_dummies()也可以完成，两者的区别是scikit-learn不支持编码字符串，所以像装修类型这种字符串变量得使用pandas来完成
在这里插入图片描述
如图所示，pandas.get_dummies()可以将字符串变量转化为数值型变量

2020重新做人

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据预处理--One-hot编码

文章目录原理实现与pandas.get_dummies()的区别原理当我们遇到的变量是标称型变量时，也就是无法比较大小、没有序列性的数据时候，就需要独热编码，独热编码通过将数据进行编码，例如装修类型，分为精装、简装、毛坯三种类型，无法比较大小，只能通过独热编码来表示实现这里介绍的one-hot编码是使用scikit-learn.preprocessing的OneHotEncoder方法实现...
复制链接

扫一扫