一文搞懂Embedding

未来魔导

于 2025-04-15 12:13:32 发布

阅读量874

点赞数 15

文章标签： embedding

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/sinat_26745777/article/details/147247048

版权

nn.Embedding 是 PyTorch 中用于处理离散数据（如单词或字符）的一个模块。它将离散的整数索引映射为连续的稠密向量表示（embedding vectors）。这种技术通常用于自然语言处理（NLP）任务中，例如文本分类、机器翻译和语言模型。

1. 基本概念

离散数据：在 NLP 中，文本通常被表示为单词或字符的序列，而这些单词或字符是离散的符号。
Embedding：为了使模型能够学习这些离散符号之间的关系，我们可以将它们映射到一个低维的连续空间中，这个连续空间中的每个点就是一个 embedding 向量。

nn.Embedding 的作用就是定义一个查找表（lookup table），将输入的整数索引映射到对应的 embedding 向量。

2. 参数说明

nn.Embedding 的主要参数如下：

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False)

2.1. 参数详解：

num_embeddings:

- 表示词汇表的大小，即有多少个不同的离散符号（如单词数量）。
- 例如，如果你的词汇表包含 10,000 个单词，则 num_embeddings=10000。

embedding_dim:

- 表示每个 embedding 向量的维度。
- 例如，如果你想将每个单词映射到一个 300 维的向量，则 embedding_dim=300。

padding_idx（可选）:

- 指定一个特殊的索引值，用于填充（padding）。
- 如果设置为某个值（如 padding_idx=0），则该索引对应的 embedding 向量会被初始化为全零，并且在训练过程中不会更新。

max_norm（可选）:

- 如果设置为某个值（如 max_norm=1.0），则会限制所有 embedding 向量的范数不超过该值。
- 这有助于防止梯度爆炸。

norm_type（可选，默认为 2.0）:

- 与 max_norm 配合使用，表示计算范数时使用的类型（如 L2 范数）。

scale_grad_by_freq（可选，默认为 False）:

- 如果为 True，则会根据每个索引的频率对梯度进行缩放。
- 频率越高，梯度越小。

sparse（可选，默认为 False）:

- 如果为 True，则使用稀疏梯度更新。
- 这可以节省内存，但只支持某些优化器（如 torch.optim.SparseAdam）。

3. 输入和输出

3.1. 输入：

输入是一个形状为 (batch_size, sequence_length) 的张量，其中每个元素是一个整数索引。
例如，假设我们有以下输入：

input = torch.tensor([[1, 2, 3], [4, 5, 6]])

这里，input 表示一个批次中有两个句子，每个句子包含 3 个单词。

3.2. 输出：

输出是一个形状为 (batch_size, sequence_length, embedding_dim) 的张量。
每个整数索引都会被替换为其对应的 embedding 向量。
例如，如果 embedding_dim=4，则输出可能是：

output = torch.tensor([
    [[0.1, 0.2, 0.3, 0.4], [0.5, 0.6, 0.7, 0.8], [0.9, 1.0, 1.1, 1.2]],
    [[1.3, 1.4, 1.5, 1.6], [1.7, 1.8, 1.9, 2.0], [2.1, 2.2, 2.3, 2.4]]
])

4. 使用示例

4.1. 示例 1：简单的 Embedding 查找

import torch
import torch.nn as nn

# 定义一个 Embedding 层
embedding = nn.Embedding(num_embeddings=10, embedding_dim=4)

# 输入是一个形状为 (batch_size, sequence_length) 的张量
input = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 获取对应的 embedding 向量
output = embedding(input)
print(output)

输出结果可能类似于：

tensor([[[ 0.0253, -0.0374,  0.0421, -0.0123],
         [-0.0124,  0.0532, -0.0211,  0.0201],
         [ 0.0342, -0.0101,  0.0234, -0.0102]],

        [[-0.0421,  0.0213, -0.0112,  0.0321],
         [ 0.0112, -0.0342,  0.0213, -0.0123],
         [-0.0234,  0.0123, -0.0412,  0.0213]]])

4.2. 示例 2：指定 padding_idx

embedding = nn.Embedding(num_embeddings=10, embedding_dim=4, padding_idx=0)

# 输入包含 padding_idx
input = torch.tensor([[0, 1, 2], [3, 0, 4]])

# 获取对应的 embedding 向量
output = embedding(input)
print(output)

输出结果中，padding_idx=0 对应的 embedding 向量始终为全零：

tensor([[[ 0.0000,  0.0000,  0.0000,  0.0000],
         [ 0.0253, -0.0374,  0.0421, -0.0123],
         [-0.0124,  0.0532, -0.0211,  0.0201]],

        [[ 0.0342, -0.0101,  0.0234, -0.0102],
         [ 0.0000,  0.0000,  0.0000,  0.0000],
         [-0.0421,  0.0213, -0.0112,  0.0321]]])

5. 预训练 Embedding 的加载

在实际应用中，我们通常会加载预训练的词向量（如 GloVe 或 Word2Vec）来初始化 nn.Embedding 层。以下是加载预训练 embedding 的方法：

from torchtext.vocab import GloVe

# 加载预训练的 GloVe 词向量
glove = GloVe(name='6B', dim=100)

# 初始化 Embedding 层
embedding = nn.Embedding.from_pretrained(glove.vectors, freeze=False)

# 测试 embedding 层
input = torch.tensor([0, 1, 2])  # 索引
output = embedding(input)
print(output)