用简答的例子，详解deepseek整体推理过程

LivingStone31

已于 2025-02-21 10:21:45 修改

阅读量862

点赞数 13

文章标签：自然语言处理

于 2025-02-20 16:44:17 首次发布

本文链接：https://blog.csdn.net/LivingStone31/article/details/145756854

版权

用简答的例子，详解deepseek整体推理过程

DeepSeek 是一个基于 Transformer 架构的深度学习模型，通常用于自然语言处理任务（如文本生成、分类等）。以下是简单的例子，帮助小白理解 DeepSeek 的整体推理过程。

示例任务

假设我们有一个训练好的 DeepSeek 模型，任务是生成一段文本。输入是一个句子：
输入:

"今天天气很好，我们"

目标:

生成接下来的文本，例如 "去公园散步。"

DeepSeek 的推理过程

输入预处理
分词: 将输入句子分词为 token（如字、词或子词）。例如：

["今天", "天气", "很好", "，", "我们"]

转换为 ID: 将每个 token 转换为模型词汇表中的对应 ID。例如：

[101, 202, 303, 404, 505]

添加特殊 token: 在输入前后添加特殊 token（如 [BOS] 和 [EOS]）：

[0, 101, 202, 303, 404, 505, 1]

其中，0 是 [begin of sentence]，1 是 [end of sentence]，此时输入维度为[1，7]，1表示batch number，7表示token number。

输入嵌入
Token Embedding: 将每个 token ID 转换为固定维度的向量（如 768 维）。

Position Embedding: 为每个 token 添加位置编码，以表示其在序列中的位置。

Segment Embedding（可选）: 如果输入包含多个句子，可以为每个句子添加 segment 编码。

最终输入表示: 将上述嵌入相加，得到模型的输入表示：

[E0, E1, E2, E3, E4, E5, E6]

其中，E0 是 [BOS] 的嵌入，E1 是 “今天” 的嵌入，依此类推。此时维度为[1, 7, 768]。

Transformer 编码
多层 Transformer 块: 输入表示通过多个 Transformer 块（如 12 层）进行处理。每个块包括：

自注意力机制: 计算每个 token 与其他 token 的关系。

前馈神经网络: 对每个 token 进行非线性变换。

输出表示: 经过所有 Transformer 块后，得到每个 token 的上下文相关表示：

[H0, H1, H2, H3, H4, H5, H6]

解码生成
初始输入: 使用输入句子的最后一个 token 的表示（如 H5）作为解码器的初始输入。

自回归生成:

在每个时间步，解码器预测下一个 token 的概率分布。假如词汇表有130k个，则生成130k的概率分布。

选择概率最高的 token 作为输出，并将其作为下一个时间步的输入。

示例生成过程:

输入 H5，预测下一个 token 为 "去"。

输入 "去"，预测下一个 token 为 "公园"。

输入 "公园"，预测下一个 token 为 "散步"。

输入 "散步"，预测下一个 token 为 "。"。

生成结束。

输出后处理
转换为文本: 将生成的 token ID 转换回文本：

["去", "公园", "散步", "。"]

拼接结果: 将生成的文本拼接为最终输出：

"去公园散步。"

整体流程总结
输入预处理: 分词、转换为 ID、添加特殊 token。

输入嵌入: Token Embedding + Position Embedding + Segment Embedding。

Transformer 编码: 多层自注意力和前馈神经网络处理。

解码生成: 自回归生成下一个 token。

输出后处理: 将生成的 token 转换为文本。

代码示例（简化版）

以下是一个简化的伪代码示例，展示 DeepSeek 的推理过程：

# 假设模型和 tokenizer 已加载
model = load_deepseek_model()
tokenizer = load_deepseek_tokenizer()

# 输入句子
input_text = "今天天气很好，我们"

# 1. 输入预处理
input_ids = tokenizer.encode(input_text)  # 分词并转换为 ID
input_ids = [0] + input_ids + [1]  # 添加特殊 token

# 2. 输入嵌入
input_embeddings = model.embed(input_ids)

# 3. Transformer 编码
hidden_states = model.transformer(input_embeddings)

# 4. 解码生成
output_ids = []
current_input = hidden_states[-1]  # 使用最后一个 token 的表示
for _ in range(max_length):  # 最大生成长度
    next_token_logits = model.decode(current_input)
    next_token_id = torch.argmax(next_token_logits).item()
    output_ids.append(next_token_id)
    if next_token_id == 1:  # 遇到 [EOS] 结束
        break
    current_input = model.embed([next_token_id])

# 5. 输出后处理
output_text = tokenizer.decode(output_ids)
print("生成结果:", output_text)