一起学习大模型 - 从底层了解Token Embeddings的原理（1）

最新推荐文章于 2025-04-28 09:41:18 发布

做个天秤座的程序猿

最新推荐文章于 2025-04-28 09:41:18 发布

阅读量4.1k

点赞数 34

分类专栏：大模型原理文章标签：大模型 embedding token python 学习方法

本文链接：https://blog.csdn.net/kljyrx/article/details/139143278

版权

大模型原理专栏收录该内容

10 篇文章

订阅专栏

文章目录

前言
1. Token Embeddings简介
2. 实现原理
3. 选用高维向量的好处是什么

前言

大家在使用离线或在线的Token Embeddings的时候，有没有想过它是怎么实现的呢，出来的一系列有各种数值的矩阵，又有什么含义呢？它们的作用是什么？

1. Token Embeddings简介

Token Embeddings 是一种将文本中的词语转化为向量表示的方法。在自然语言处理中，我们通常将文本表示为一个向量矩阵，其中每个词语对应一个向量。这些向量被称为词向量或者词嵌入。Token Embeddings 是一种词向量的扩展，它可以将不同类型的词语（如单词、字符、子词）都转化为向量表示。

Token Embeddings 在自然语言处理任务中具有广泛的应用。例如，可以用它来构建文本分类模型、文本生成模型和机器翻译模型等。使用 Token Embeddings 可以将文本中的词语转化为连续的向量表示，从而能够更好地捕捉词语之间的语义关系和上下文信息。这些向量可以用于训练机器学习模型，或者直接用于计算词语之间的相似度。

在构建 Token Embeddings 时，可以使用不同的模型和算法。目前常用的方法包括 Word2Vec、GloVe、FastText 和 BERT 等。这些方法都依赖于大规模的语料库来学习词向量，从而能够捕捉到词语的分布和语义信息。

Token Embeddings 的优点是可以将不同类型的词语都转化为向量表示，从而能够应对各种不同的自然语言处理任务。它能够更好地捕捉词语之间的语义关系和上下文信息，从而提高模型的性能。另外，Token Embeddings 可以使用预训练好的词向量，从而节省训练时间和资源消耗。

然而，Token Embeddings 也存在一些限制。首先，构建 Token Embeddings 需要使用大规模的语料库来学习词向量，这对于资源有限的用户来说可能是一个挑战。此外，Token Embeddings 只能捕捉到词语的静态信息，而无法捕捉到词语的动态变化。因此，在某些任务中，Token Embeddings 可能无法达到最佳的性能。

总的来说，Token Embeddings 是一种将文本中的词语转化为向量表示的方法，它在自然语言处理任务中具有广泛的应用。使用 Token Embeddings 可以更好地捕捉词语之间的语义关系和上下文信息，从而提高模型的性能。然而，构建 Token Embeddings 需要大规模的语料库和较长的训练时间，且只能捕捉到静态的词语信息。

2. 实现原理

下面是 Token Embeddings的实现步骤及伪代码示例：

2.1 步骤

1） 构建词汇表（Vocabulary）：
词汇表是一个包含所有唯一单词的集合，每个单词都有一个唯一的索引。

2） 初始化嵌入矩阵（Embedding Matrix）：
嵌入矩阵的大小为（词汇表大小，嵌入维度）。每个词的嵌入向量是这个矩阵中的一行。

3） 将单词转换为索引（Token to Index）：
使用词汇表将输入文本中的每个单词转换为其对应的索引。

4） 查找嵌入向量（Lookup Embedding Vectors）：
使用单词的索引从嵌入矩阵中查找对应的嵌入向量。

2.2 伪代码

2.2.1 代码

以下是实现 Token Embeddings的伪代码：

# 假设我们有以下词汇表和输入文本
vocab = {'hello': 0, 'world': 1, 'how': 2, 'are': 3, 'you': 4}
vocab_size = len(vocab)
embed_dim = 5  # 嵌入向量的维度

# 初始化嵌入矩阵（通常是随机初始化，然后在训练过程中更新）
embedding_matrix = np.random.rand(vocab_size, embed_dim)

# 输入文本
input_text = ["hello", "how", "are", "you"]

# 将单词转换为索引
input_indices = [vocab[word] for word in input_text]

# 查找嵌入向量
input_embeddings = [embedding_matrix[idx] for idx in input_indices]

# 打印结果
print("Input Indices:", input_indices)
print("Input Embeddings:", input_embeddings)

2.2.2 输出示例

Input Indices: [0, 2, 3, 4]
Input Embeddings: [
    [0.5488135, 0.71518937, 0.60276338, 0.54488318, 0.4236548],
    [0.64589411, 0.43758721, 0.891773, 0.96366276, 0.38344152],
    [0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606],
    [0.0871293, 0.0202184, 0.83261985, 0.77815675, 0.87001215]
]

2.2.3 代码详细解释

1） 构建词汇表：

vocab = {'hello': 0, 'world': 1, 'how': 2, 'are': 3, 'you': 4}

2）初始化嵌入矩阵：

vocab_size = len(vocab)
embed_dim = 5
embedding_matrix = np.random.rand(vocab_size, embed_dim)

这里的 embedding_matrix 是一个 vocab_size x embed_dim 的矩阵，每个单词对应一个随机初始化的向量。

3） 将单词转换为索引：

input_text = ["hello", "how", "are", "you"]
input_indices = [vocab[word] for word in input_text]

input_indices 是输入文本中单词对应的索引列表，例如 [0, 2, 3, 4]。

4） 查找嵌入向量：

input_embeddings = [embedding_matrix[idx] for idx in input_indices]

input_embeddings 是输入文本中每个单词对应的嵌入向量列表。

2.2.4 实际应用

在实际应用中，嵌入矩阵会在模型训练过程中更新，以更好地捕捉词与词之间的关系和语义信息。现代的词嵌入技术（如 Word2Vec、GloVe、BERT 等）会使用大量文本数据进行预训练，以生成高质量的词向量。

3. 选用高维向量的好处是什么

使用自定义维度的向量来描述一个单词（即Token Embeddings）可以更好地表示单词的语义和上下文关系。这种方法相比于单一数值的描述，提供了更丰富的和更细致的表示。以下是使用高维向量表示单词的几个关键优势：

3.1 捕捉语义关系

高维向量可以捕捉到词语之间的复杂语义关系。例如，语义相似的词（如“猫”和“狗”）在向量空间中通常会彼此接近，而语义不同的词（如“猫”和“汽车”）则会相距较远。这种表示使得模型能够更好地理解和处理自然语言。

3.2 处理多义词

一个单词在不同的上下文中可能有不同的含义。高维向量表示可以在向量空间中对多义词进行不同的表示，使得模型能够根据上下文正确地理解和区分这些多义词。

3.3 提升模型性能

高维向量可以为模型提供更丰富的信息，从而提升模型在各种自然语言处理任务中的性能。例如，在文本分类、机器翻译、情感分析等任务中，词嵌入可以帮助模型更准确地捕捉和利用文本中的语义信息。

3.4 平滑数据稀疏性

在传统的词袋模型（Bag of Words, BoW）中，每个单词用一个独立的维度表示，维度数目等于词汇表的大小。这会导致非常高维且稀疏的向量表示。词嵌入通过将单词映射到低维稠密向量空间，可以有效地缓解数据稀疏性问题，并减少计算复杂度。