one-hot理解

最新推荐文章于 2023-10-15 15:02:36 发布

Handsome coder

最新推荐文章于 2023-10-15 15:02:36 发布

阅读量1.7k

点赞数

分类专栏：数据预处理机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/liaozhaocong/article/details/116369017

版权

本文详细介绍了One-Hot编码的基本概念，它是一种常用的文本特征提取技术。通过实例展示了如何将不同类型的特征（如性别和数字类别）进行编码。文章提供了两种方法的完整示例，包括使用OneHotEncoder进行数据预处理，并在机器学习模型中应用。最后，提到了相关参考资料以供进一步学习。

摘要由CSDN通过智能技术生成

一、基础知识

one-hot是比较常用的文本特征特征提取的方法。

one-hot编码，又称“独热编码”。其实就是用N位状态寄存器编码N个状态，每个状态都有独立的寄存器位，且这些寄存器位中只有一位有效，说白了就是只能有一个状态。
假设有四个样本，每个样本有三种特征：
在这里插入图片描述
这样，4个样本的特征向量就可以这么表示：

sample1 -> [0,1,1,0,0,0,1,0,0]

sample2 -> [1,0,0,1,0,0,0,1,0]

sample3 -> [0,1,0,0,1,0,0,1,0]

sample4 -> [1,0,0,0,0,1,0,0,1]

举个例子
在这里插入图片描述
在举个例子

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
X = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(X)## fit来学习编码
enc.categories_

特征1为male和female两种类型，特征2为1/2/3三种类型，也即
在这里插入图片描述
用fit训练

enc.transform([['Female', 1], ['Male', 4]]).toarray()  # 将one-hot encode转换成数组（顺转换）

enc.inverse_transform([[0

最低0.47元/天解锁文章

Handsome coder

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
one-hot理解

one-hot是比较常用的文本特征特征提取的方法。one-hot编码，又称“独热编码”。其实就是用N位状态寄存器编码N个状态，每个状态都有独立的寄存器位，且这些寄存器位中只有一位有效，说白了就是只能有一个状态。假设有四个样本，每个样本有三种特征：这样，4个样本的特征向量就可以这么表示：sample1 -> [0,1,1,0,0,0,1,0,0]sample2 -> [1,0,0,1,0,0,0,1,0]sample3 -> [0,1,0,0,1,0,0,1,0]sample
复制链接

扫一扫

专栏目录