机器学习-Onehot encoding独热编码

最新推荐文章于 2024-04-28 20:16:45 发布

Edwin_Joa

最新推荐文章于 2024-04-28 20:16:45 发布

阅读量214

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/Edwin_Joa/article/details/109014668

版权

Onehot encoding详解

在机器学习任务中，特征并不总是连续值，有可能是分类值。

如现有以下特征值：

[["male", "female"],
["EU", "US", "Asia"],
["firefox", "chrome", "safari", "edge"]]

则特征：[“male”, “US”, “edge”]可用数字表示为：[1,2,3]
但转化为数字后，上述数据并不能直接用于分类器，因为分类器往往默认数据为连续、有序的，而上述数字并不有序。

故，为解决上述问题，可以使用onehot encoding。

Onehot encoding

使用N位状态寄存器来对N个状态进行编码，每个状态都有其独立的寄存器位，并且在任何时候，只有一位有效。

例如：

自然状态码为：000,001,010,011,100,101
独热编码为：000001,000010,000100,001000,010000,100000

对于每一个特征，若其有m个可能值，则经过onehot encoding之后，就变成了m个二元特征。并且这些特征互斥，每次只有一个激活。
从而数据变得稀疏。

onehot encoding的作用

使分类器便于处理属性数据；
一定程度上扩充特征。

onehot encoding代码实现

encoder = preprocessing.OneHotEncoder()
encoder.fit([
	[0,2,1,12],
	[1,3,5,3],
	[2,3,2,12],
	[1,2,4,3]
	])
encoder_vector = encoder.transform([[2,3,5,3]]).toarray()
print(encoder_vector)

结果：

[[ 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

分析：
第一个特征（即为第一列）为[0,1,2,1] ，其中三类特征值[0,1,2]，因此One-Hot Code可将[0,1,2]表示为:[100,010,001]
同理第二个特征列可将两类特征值[2,3]表示为[10,01]
第三个特征将4类特征值[1,2,4,5]表示为[1000,0100,0010,0001]
第四个特征将2类特征值[3,12]表示为[10,01]

因此最后可将[2,3,5,3]表示为[0,0,1,0,1,0,0,0,1,1,0]

Edwin_Joa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-Onehot encoding独热编码

Onehot encoding详解在机器学习任务中，特征并不总是连续值，有可能是分类值。如现有以下特征值：[["male", "female"],["EU", "US", "Asia"],["firefox", "chrome", "safari", "edge"]]则特征：[“male”, “US”, “edge”]可用数字表示为：[1,2,3]但转化为数字后，上述数据并不能直接用于分类器，因为分类器往往默认数据为连续、有序的，而上述数字并不有序。故，为解决上述问题，可以使用oneh
复制链接

扫一扫