One-Hot Encoding（独热编码）

six.学长

于 2024-06-21 09:26:40 发布

阅读量655

点赞数 26

分类专栏：机器学习深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/139849219

版权

深度学习同时被 2 个专栏收录

63 篇文章 0 订阅

订阅专栏

机器学习

31 篇文章 0 订阅

订阅专栏

One-Hot Encoding 是一种常用的技术，用于将离散的分类数据（如单词、字符、类别等）转换为向量形式，以便在机器学习和深度学习模型中使用。下面详细解释 One-Hot Encoding 及其在高维稀疏表示中的应用。

1. One-Hot Encoding 的基本原理

One-Hot Encoding 是将每个类别映射到一个二进制向量。这个向量的维度等于所有可能类别的数量，并且每个向量中只有一个位置是1，其他位置都是0。例如，对于一个包含4个类别（猫、狗、鸟、鱼）的分类问题，类别可以映射为如下的 One-Hot 向量：

猫 (cat) -> [1, 0, 0, 0]
狗 (dog) -> [0, 1, 0, 0]
鸟 (bird) -> [0, 0, 1, 0]
鱼 (fish) -> [0, 0, 0, 1]

2. One-Hot Encoding 的应用

2.1 自然语言处理

在自然语言处理（NLP）任务中，文本中的单词或字符通常需要进行 One-Hot 编码。例如，假设有一个词汇表（vocabulary）包含了10,000个不同的单词，那么每个单词的 One-Hot 向量就是一个长度为10,000的稀疏向量，其中只有一个元素为1，其余都是0。

举个例子，如果词汇表是 [“I”, “am”, “learning”, “NLP”]，那么句子 “I am learning NLP” 的 One-Hot 编码表示为：

“I” -> [1, 0, 0, 0]
“am” -> [0, 1, 0, 0]
“learning” -> [0, 0, 1, 0]
“NLP” -> [0, 0, 0, 1]

2.2 分类问题

在分类问题中，目标标签通常也是离散的类别，需要进行 One-Hot 编码。例如，对于一个3类分类问题，标签可能是 [“cat”, “dog”, “fish”]，那么标签的 One-Hot 编码表示为：

cat -> [1, 0, 0]
dog -> [0, 1, 0]
fish -> [0, 0, 1]

3. 高维稀疏表示的特点

One-Hot Encoding 的结果是一个高维稀疏向量，因为向量的维度等于类别的总数，而每个向量中只有一个元素是1，其余都是0。这种表示有以下特点：

3.1 高维

对于大规模词汇表或类别数很多的情况，One-Hot 向量的维度会非常高。例如，在 NLP 任务中，如果词汇表有10,000个单词，每个单词的 One-Hot 向量就是一个10,000维的向量。

3.2 稀疏

尽管向量维度很高，但每个向量中只有一个位置是1，其余都是0。因此，这些向量是非常稀疏的。

3.3 内存和计算效率

由于 One-Hot 向量是高维稀疏的，直接使用它们进行计算在内存和计算效率上并不高效。为了处理这种情况，通常会采用一些优化技巧或转换方法，例如使用嵌入层（embedding layer）来将高维稀疏向量映射到低维稠密向量。

4. 示例代码

以下是一个简单的 Python 代码示例，展示如何使用 One-Hot Encoding 对文本数据进行编码：

from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 定义类别
categories = ['cat', 'dog', 'fish']

# 创建 OneHotEncoder 实例
encoder = OneHotEncoder(sparse=False)

# 拟合并转换类别数据
encoded = encoder.fit_transform(np.array(categories).reshape(-1, 1))

print(encoded)

输出：

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

在这个示例中，我们使用 scikit-learn 的 OneHotEncoder 类对类别数据进行编码，得到每个类别对应的 One-Hot 向量。

总结

One-Hot Encoding 是一种简单但强大的编码技术，用于将离散的分类数据转换为向量形式。尽管这种方法会导致高维稀疏表示，但它在分类和自然语言处理等任务中非常有效。为了提高计算效率和内存利用率，通常会结合其他技术（如嵌入层）来处理这些高维稀疏向量。

six.学长

关注

26
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
One-Hot Encoding（独热编码）

One-Hot Encoding（独热编码）是一种简单但强大的编码技术，用于将离散的分类数据转换为向量形式。尽管这种方法会导致高维稀疏表示，但它在分类和自然语言处理等任务中非常有效。为了提高计算效率和内存利用率，通常会结合其他技术（如嵌入层）来处理这些高维稀疏向量。
复制链接

扫一扫

专栏目录