详解one-hot编码及代码举例

最新推荐文章于 2024-04-28 20:16:45 发布

舞动的白杨

最新推荐文章于 2024-04-28 20:16:45 发布

阅读量3.4k

点赞数 3

分类专栏： 04-深度学习专栏文章标签：编码器 matlab one-hot编码

本文链接：https://blog.csdn.net/weixin_37706204/article/details/120986744

版权

04-深度学习专栏专栏收录该内容

35 篇文章 6 订阅

订阅专栏

1.什么是Onehot编码？

onehot编码又叫独热编码，其为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。
Onehot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量（注：形式貌似二进制的形式，但不是真的二进制，注意区分），除了整数的索引之外，它都是零值，它被标记为1。

2.one-hot编码过程详解

比如我们要对 “hello world” 进行one-hot编码，怎么做呢？

1.确定要编码的对象--hello world，

2.确定分类变量--h e l l o 空格 w o r l d，共27种类别（26个小写字母 + 空格，）；

3.以上问题就相当于，有11个样本，每个样本有27个特征，将其转化为二进制向量表示，

这里有一个前提，特征排列的顺序不同，对应的二进制向量亦不同（比如我把空格放在第一列和a放第一列，one-hot编码结果肯定是不同的）

因此我们必须要事先约定特征排列的顺序：

1.、27种特征首先进行整数编码：a--0，b--1，c--2，......，z--25，空格--26

2、27种特征按照整数编码的大小从前往后排列

得到的one-hot编码如下：

再比如：我们要对["中国", "美国", "日本"]进行one-hot编码，

怎么做呢？

1.确定要编码的对象--["中国", "美国", "日本", "美国"]，

2.确定分类变量--中国美国日本，共3种类别；

3.以上问题就相当于，有3个样本，每个样本有3个特征，将其转化为二进制向量表示，

我们首先进行特征的整数编码：中国--0，美国--1，日本--2，并将特征按照从小到大排列

得到one-hot编码如下：

["中国", "美国", "日本", "美国"] ---> [[1,0,0], [0,1,0], [0,0,1], [0,1,0]]

3.为什么需要one-hot编码？

one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

上面的 hello world 相当于多分类的问题（27分类），每个样本只对应于一个类别（即只在对应的特征处值为1，其余地方值为0），而我们的分类结果，得到的往往是隶属于某个类别的概率，这样在进行损失函数（例如交叉熵损失）或准确率计算时，变得非常方便

4.one-hot编码的缺陷

one-hot编码要求每个类别之间相互独立，如果之间存在某种连续型的关系，或许使用distributed respresentation（分布式）更加合适

以上内容转自：详解one-hot编码 - 帅帅的飞猪 - 博客园

5.one-hot编码程序怎样实现？

%%matlab代码举例
data0 = [1,2,3,5,9,6,1,0,7,4,1,2,8,6,4,0,9,2,7,3];%%这是分类变量
data1 = data0 + 1;%% +1是为了变换单位矩阵后编码时取行号更方便

%%进行编码操作
I = eye(max(data1));
data1 = I(:,data1)

运行见下图，这真的是一个非常巧妙的办法。

舞动的白杨

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
1
评论
详解one-hot编码及代码举例

1.什么是Onehot编码？onehot编码又叫独热编码，其为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。Onehot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。2.one-hot编码过程详解比如我们要对 “hello world” 进行one-hot编码，怎么做呢？1.确定要编码的...
复制链接

扫一扫