Python: 进行one-hot编码

最新推荐文章于 2024-02-29 10:21:01 发布

anshuai_aw1

最新推荐文章于 2024-02-29 10:21:01 发布

阅读量4.3k

点赞数 5

分类专栏： Python 机器学习文章标签： one-hot编码

本文链接：https://blog.csdn.net/anshuai_aw1/article/details/82979893

版权

机器学习同时被 2 个专栏收录

49 篇文章 57 订阅

订阅专栏

Python

21 篇文章 19 订阅

订阅专栏

在机器学习中，one-hot编码是对分类特征进行预处理的常用手段。本篇博客讲解了如何利用sklearn来进行one-hot编码。

举一个简单的例子：

>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  
OneHotEncoder(categorical_features='all', dtype=<... 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)
>>> enc.n_values_
array([2, 3, 4])
>>> enc.feature_indices_
array([0, 2, 5, 9])
>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

首先确认一下输入样本[[0, 0, 3], [1, 1, 0], [0, 2, 1],[1, 0, 2]],

这个输入样本表示该input共有四个样本，三个特征，也就是三列。这里我们观察可以发现对于第一个feature，对应第一列，它的取值有0,1两个属性值，第二列有0,1,2三个值，第三个有0，1，2，3四个取值。那么这里的enc.n_values_就是每个属性列不同属性值的个数，所以输出可以看到分别是2,3,4。而enc.feature_indices_是对enc.n_values_的一个累加。

enc.transform([[0, 1, 1]]).toarray()

这一句目标是将[0, 1, 1]这个样本转化为基于上面四个输入的one-hot编码。那么可以得到：

第一个属性值0，对应第一列：0->10

第二个属性值1，对应第二列：1->010

第三个属性值1，对应第三列：1->0100

所以[0, 1, 1]对应以上输入的one-hot编码为

[1,0,0,1,0,0,1,0,0]。

anshuai_aw1

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python: 进行one-hot编码

在机器学习中，one-hot编码是对分类特征进行预处理的常用手段。本篇博客讲解了如何利用sklearn来进行one-hot编码。举一个简单的例子：&gt;&gt; from sklearn.preprocessing import OneHotEncoder&gt;&gt;&gt; enc = OneHotEncoder()&gt;&gt;&gt; enc.fit([[0, 0, 3...
复制链接

扫一扫