Deepseek知识解析_deepseek有哪些接口-CSDN博客

本文链接：https://blog.csdn.net/m0_37694276/article/details/146212794

Deepseek知识解析

文章目录

Deepseek知识解析
@[toc]
1. 运行原理
1.1. 运行原理
1.2. 运行时序
1.3. 运行模块及依赖模块

2. 接口API及价格
2.1. 接口API
2.2. 公开价格
2.2.1. 公开的API价格表
2.2.2. 公开的token价格
2.2.2.1. 公开渠道价格信息
2.2.2.2. 官网价格信息
2.2.2.2.1. 模型 & 价格

3. 人工智能系统的算力
3.1. 算力基础
3.2. CPU和GPU算力
3.2.1. CPU和GPU在人工智能算力的区别
3.2.1.1. 架构设计
3.2.1.2. 计算方式
3.2.1.3. 性能表现
3.2.1.4. 应用场景

3.2.2. Deepseek对算力的基本需求
3.2.2.1. 模型规模与精度
3.2.2.2. 数据处理能力
3.2.2.3. 训练与推理需求
3.2.2.4. deepseek算力机推荐配置
3.2.2.4.1. DeepSeek满血版（671B）
3.2.2.4.2. DeepSeek蒸馏版（70B）
3.2.2.4.3. DeepSeek蒸馏版（32B）
3.2.2.4.4. DeepSeek-7B/14B
3.2.2.4.5. 极低成本方案（7B蒸馏版）

4. deepseek的快速使用方法
4.1. 注册与登录
4.2. 使用方式
4.3. API 调用
4.4. 核心功能使用
4.5. 使用技巧

5. deepseek的微调和知识库构建
5.1. 微调和知识库
5.1.1. 微调和知识库构建的区别
5.1.2. 性能差别
5.1.2. 人员水平要求
5.1.3. 总结

5.2. 微调方法
5.3. 知识库构建
5.4. 知识库向量化与 RAG 的方法和运行原理
5.4.1. 知识库向量化的方法
5.4.2. RAG（检索增强生成）的方法
5.4.3. RAG 的运行原理

附录：名词解释

1. 运行原理

1.1. 运行原理

DeepSeek 的运行原理基于其先进的深度学习架构和训练策略。其核心原理包括以下几个方面：

混合专家架构（MoE）：DeepSeek 采用混合专家架构，总参数量高达6710亿，但每个输入仅激活370亿参数，通过动态路由机制选择最相关的专家处理任务，显著降低计算冗余。
多头隐式注意力（MLA）：MLA机制通过压缩Key-Value矩阵为低秩潜在向量，将内存占用减少至传统Transformer的1/4，同时保留多头注意力的优势。
训练策略优化：包括主动学习与迁移学习、FP8混合精度训练、多Token预测（MTP）等技术，提升训练效率和模型性能。
模型压缩与量化：通过剪枝和量化技术，降低模型的存储和计算需求，使其能够在有限的硬件资源上高效运行。
强化学习与冷启动策略：采用纯强化学习范式，并通过群体相对策略优化（GRPO）提升训练稳定性。

DeepSeek 运行原理：

1.2. 运行时序

DeepSeek 的运行时序描述了从用户请求到模型响应的整个过程，具体如下：

用户请求接收：用户通过 API 或其他接口向 DeepSeek 发送请求。
请求预处理：对用户请求进行初步处理，如格式校验、参数解析等。
任务分配：根据请求的类型和内容，将任务分配给相应的处理模块。
模型推理：处理模块调用 DeepSeek 的核心模型进行推理计算。
结果后处理：对模型的输出结果进行进一步处理，如格式转换、结果优化等。
结果返回：将最终的处理结果返回给用户。

DeepSeek 运行时序：

1.3. 运行模块及依赖模块

DeepSeek 的运行涉及到多个模块及其依赖关系，具体如下：

核心模型模块：负责模型的推理计算，是 DeepSeek 的核心部分。
请求处理模块：负责接收和预处理用户请求，以及将结果返回给用户。
任务调度模块：根据请求的类型和内容，合理分配任务到不同的处理模块。
数据管理模块：负责数据的存储、读取和管理，为模型训练和推理提供数据支持。
依赖模块：
- 硬件依赖：需要 GPU 等硬件资源来加速模型的计算。
- 软件依赖：依赖于深度学习框架（如 TensorFlow、PyTorch 等）以及其他相关的软件库。

DeepSeek 运行模块及依赖模块：

2. 接口API及价格

2.1. 接口API

DeepSeek 提供了一系列接口API，供用户与模型进行交互，主要的接口包括：

文本生成接口：用户输入提示文本，DeepSeek 根据提示生成相应的文本内容。
- 接口地址：https://api.deepseek.com/v1/generate
- 请求方法：POST
- 请求参数：
  - prompt：提示文本
  - max_tokens：生成文本的最大长度
  - temperature：控制生成文本的随机性
- 返回值：生成的文本内容
图像生成接口：用户输入描述文本，DeepSeek 生成相应的图像。
- 接口地址：https://api.deepseek.com/v1/image/generate
- 请求方法：POST
- 请求参数：
  - prompt：描述文本
  - size：生成图像的尺寸
- 返回值：生成的图像数据
问答接口：用户提出问题，DeepSeek 给出相应的答案。
- 接口地址：https://api.deepseek.com/v1/qa
- 请求方法：POST
- 请求参数：
  - question：问题文本
  - context：相关背景信息
- 返回值：答案文本

2.2. 公开价格

2.2.1. 公开的API价格表

DeepSeek 的 API 价格根据不同的服务和使用量有所不同，具体价格如下：

文本生成API：
- 免费额度：每月前1000次请求免费
- 付费标准：0.00012美元/Token
图像生成API：
- 免费额度：每月前500次请求免费
- 付费标准：0.02美元/张图片
问答API：
- 免费额度：每月前1000次请求免费
- 付费标准：0.00015美元/Token

2.2.2. 公开的token价格

2.2.2.1. 公开渠道价格信息

DeepSeek 的 token 价格根据不同的使用场景和套餐有所不同，具体价格如下：

标准套餐：0.00012美元/Token
高级套餐：0.00010美元/Token（需满足一定的使用量要求）

请注意，以上价格可能会根据市场情况和 DeepSeek 的政策进行调整，具体价格请以 DeepSeek 官方公布为准。

2.2.2.2. 官网价格信息

2.2.2.2.1. 模型 & 价格

下表所列模型价格以“百万 tokens”为单位。Token 是模型用来表示自然语言文本的最小单位，可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 token 数进行计量计费。
以下信息来自：deepseek官网价格说明

模型 & 价格细节

模型(1)	deepseek-chat	deepseek-reasoner
上下文长度	64K	64K
最大思维链长度(2)	-	32K
最大输出长度(3)	8K	8K
标准时段价格（北京时间 08:30-00:30）
百万tokens输入（缓存命中）(4)	0.5元	1元
百万tokens输入（缓存未命中）	2元	4元
百万tokens输出 (5)	8元	16元
优惠时段价格(6)（北京时间 00:30-08:30）
百万tokens输入（缓存命中）	0.25元（5折）	0.25元（2.5折）
百万tokens输入（缓存未命中）	1元（5折）	1元（2.5折）
百万tokens输出	4元（5折）	4元（2.5折）

细节说明
- deepseek-chat 模型对应 DeepSeek-V3；
- deepseek-reasoner 模型对应 DeepSeek-R1。
- 思维链为deepseek-reasoner模型在给出正式回答之前的思考过程，其原理详见推理模型。
- 如未指定 max_tokens，默认最大输出长度为 4K。请调整 max_tokens 以支持更长的输出。
- 关于上下文缓存的细节，请参考DeepSeek 硬盘缓存。
- deepseek-reasoner的输出 token 数包含了思维链和最终答案的所有 token，其计价相同。

DeepSeek API 现实行错峰优惠定价，每日优惠时段为北京时间 00:30-08:30，其余时间按照标准价格计费。请求的计价时间为该请求完成的时间。

扣费规则

扣减费用 = token 消耗量 × 模型单价，对应的费用将直接从充值余额或赠送余额中进行扣减。当充值余额与赠送余额同时存在时，优先扣减赠送余额。

产品价格可能发生变动，DeepSeek 保留修改价格的权利。请您依据实际用量按需充值，定期查看此页面以获知最新价格信息。

3. 人工智能系统的算力

3.1. 算力基础

算力的定义：算力是指执行人工智能算法所需的计算资源和处理能力，是衡量计算设备或系统在处理人工智能任务时性能高低的关键指标。

算力的构成：

硬件设备：包括CPU、GPU等处理器，它们的运算速度、内存容量等硬件性能直接影响算力。
软件框架：如TensorFlow、PyTorch等，通过优化算法和计算流程，提高算力的利用效率。
算法优化：通过剪枝、量化等技术对模型进行压缩和加速，减少计算量、提高计算精度和效率。

算力的类型：

通用算力：基于CPU芯片的服务器所提供的算力，主要用于云计算、边缘计算等场景。
智能算力：基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力，主要用于人工智能的训练和推理计算。
超级算力：由超级计算机等高性能计算集群所提供的算力，主要用于尖端科学领域的复杂运算。

3.2. CPU和GPU算力

3.2.1. CPU和GPU在人工智能算力的区别

3.2.1.1. 架构设计

CPU：注重单线程处理能力，通常有少量的计算核心和更多的高速缓存，擅长处理具有复杂计算步骤和复杂数据依赖的计算任务。
GPU：面向并行处理的设计，拥有大量的计算核心，但缓存较小，擅长处理大量简单、相互无依赖的大规模数据。

graph TD
    A[CPU和GPU在处理AI任务时的区别] --> B[架构设计]
    A --> C[计算方式]
    A --> D[性能表现]
    A --> E[应用场景]
    B --> B1[CPU: 注重单线程处理能力，少量计算核心和更多高速缓存]
    B --> B2[GPU: 面向并行处理，大量计算核心，缓存较小]
    C --> C1[CPU: 通过执行指令流的方式进行计算，适合处理逻辑控制、串行计算]
    C --> C2[GPU: 通过执行大量线程，同时进行并行计算，适用于大规模计算密集型任务]
    D --> D1[CPU: 在通用计算方面表现出色，处理大规模并行计算和浮点运算效率低]
    D --> D2[GPU: 强大的并行处理能力，显著加速深度学习、图像处理等领域的计算过程]
    E --> E1[CPU: 处理一般计算任务和控制计算机系统运行，在AI中作为辅助处理器]
    E --> E2[GPU: 广泛应用于深度学习、图形处理等领域，是AI训练的关键加速器]

3.2.1.2. 计算方式

CPU：主要通过执行指令流的方式进行计算，适合处理逻辑控制、串行计算等任务。
GPU：通过执行大量的线程，同时进行并行计算，适用于大规模的计算密集型任务，如图像处理、机器学习等。

3.2.1.3. 性能表现

CPU：在通用计算方面表现出色，但在处理大规模并行计算和浮点运算时效率相对较低。
GPU：因其强大的并行处理能力，成为AI算力的重要组成部分，能够显著加速深度学习、图像处理等领域的计算过程。

3.2.1.4. 应用场景

CPU：常用于处理一般的计算任务和控制计算机系统的运行，在人工智能中作为辅助处理器与其他计算单元协同工作。
GPU：广泛应用于深度学习、图形处理等领域，是AI训练的关键加速器。

3.2.2. Deepseek对算力的基本需求

3.2.2.1. 模型规模与精度

Deepseek作为大型语言模型，具有数十亿甚至上百亿的参数，需要高精度的计算来保证模型的性能和生成结果的质量。

3.2.2.2. 数据处理能力

Deepseek需要处理海量的数据，包括文本、图像等多种类型的数据，这对计算设备的存储和数据吞吐能力提出了很高的要求。

3.2.2.3. 训练与推理需求

训练阶段：需要大量的计算资源来训练模型，以优化模型的参数和性能。这通常需要使用高性能的GPU集群或超级计算机等设备。
推理阶段：在实际应用中，Deepseek需要快速地对用户输入进行推理和响应，这也需要强大的算力支持，以保证服务的实时性和高效性。

3.2.2.4. deepseek算力机推荐配置

根据DeepSeek对算力的基本需求，以下是针对不同版本（满血版和各种蒸馏版）的算力服务推荐配置：

3.2.2.4.1. DeepSeek满血版（671B）

DeepSeek满血版（671B）
- 适用场景：超大规模AI训练、科研计算。
- 推荐配置：
  - GPU：16块NVIDIA H100 80GB（需NVLink/InfiniBand互联）。H100 GPU是目前市面上最先进的GPU之一，能够提供强大的算力支持，满足DeepSeek满血版在训练和推理阶段的高精度计算需求。
  - CPU：多路至强/EPYC处理器。多路处理器可以提供更多的计算核心和线程，进一步提升整体算力。
  - 内存：≥2TB DDR5 ECC。大容量内存可以确保在处理海量数据时不会出现内存瓶颈。
  - 存储：≥1TB NVMe SSD阵列。高速SSD可以提供快速的数据读写速度，满足DeepSeek在数据处理方面的高要求。
  - 网络：100Gbps InfiniBand。高速网络可以确保在分布式训练或推理过程中，不同节点之间的数据交换速度。
  - 其他：建议采用虚拟化支持，如VMware或Kubernetes集群管理，适配多云环境。
- 部署方式：多卡集群部署。

3.2.2.4.2. DeepSeek蒸馏版（70B）

DeepSeek蒸馏版（70B）
- 适用场景：企业级高精度推理、中型任务。
- 推荐配置：
  - GPU：单卡NVIDIA A100 80GB或2块RTX 4090。A100和RTX 4090都是高性能GPU，能够提供足够的算力支持DeepSeek蒸馏版在推理阶段的需求。
  - CPU：32核至强/EPYC。
  - 内存：≥256GB DDR5。
  - 存储：500GB NVMe SSD。
  - 其他：支持FP16/4-bit量化，显存需求35-50GB。
- 部署方式：单机多卡部署。

3.2.2.4.3. DeepSeek蒸馏版（32B）

DeepSeek蒸馏版（32B）
- 适用场景：小微企业、开发测试。
- 推荐配置：
  - GPU：单卡RTX 3090/4090（24GB显存）。
  - CPU：8核i9/Ryzen 9。
  - 内存：≥64GB DDR4。
  - 存储：200GB NVMe SSD。
  - 其他：支持8-bit量化，内存需求约50GB。
- 部署方式：单卡本地部署。

3.2.2.4.4. DeepSeek-7B/14B

DeepSeek-7B/14B
- 适用场景：个人开发者、轻量应用。
- 推荐配置：
  - GPU：RTX 3060/3070（8-16GB显存）。
  - CPU：6核i5/Ryzen 5。
  - 内存：32GB DDR4。
  - 存储：100GB SSD。
  - 其他：4-bit量化版可运行于低端GPU，但延迟较高（10-30秒/响应）。
- 部署方式：消费级PC部署。

3.2.2.4.5. 极低成本方案（7B蒸馏版）

极低成本方案（7B蒸馏版）
- 适用场景：实验性部署、教育用途。
- 推荐配置：
  - CPU：Intel i3-4170（4核）。
  - GPU：矿卡P106-100（6GB显存）。
  - 内存：16GB DDR3。
  - 存储：120GB SATA SSD。
  - 其他：仅支持极简模型，推理速度慢（2分钟/响应），适合技术验证。
- 部署方式：DIY主机。

4. deepseek的快速使用方法

4.1. 注册与登录

4.2. 使用方式

网页版：
直接访问 DeepSeek 官网，无需下载安装，打开网页即可快速开启与 AI 的对话。
App 版：
在各大应用商店搜索“DeepSeek”，一键下载安装。安装完成后，除了常规文字输入，还支持拍照上传、从相册导入等便捷功能。

4.3. API 调用

开通 API：
在官方网站注册并开通 DeepSeek 的 API。
获取 API Key：
在官方网站控制台获取 API Key。官方API Key请在生成后，保存此API Key，后续无法在官方网站查看完整API Key。
配置客户端：
在 Chatbox 或 Cherry studio 等客户端配置 DeepSeek 的 API Key 和模型 ID。

4.4. 核心功能使用

自然语言处理
- 文本生成：
  在输入框中输入明确的指令，如“生成一篇关于环保的 500 字宣传短文，风格简洁明了”，DeepSeek 会根据要求生成相应的文本。
- 问答系统：
  对于复杂的问题，DeepSeek 可以进行深入的分析和解答，如“人工智能对未来就业市场的影响有哪些？”。
代码开发
- 代码生成：
  向 DeepSeek 提出代码需求，如“用 Python 编写一个计算斐波那契数列的函数”，它会生成相应的代码，并提供必要的解释。
- 代码调试：
  将错误信息输入给 DeepSeek，它可以帮助你分析错误原因，并提供解决方案。
数据分析
- 数据处理：
  对于给定的数据，DeepSeek 可以进行清洗、转换和分析，如“分析该数据中的销售趋势和异常值”。
- 数据可视化：
  将数据分析结果以图表的形式呈现出来，使数据更加直观易懂，如“将销售数据生成柱状图”。

4.5. 使用技巧

提问技巧
- 明确具体：
  在提问时，尽量明确具体，避免模糊不清的表述。
- 逐步引导：
  对于复杂的任务，可以将其分解为多个步骤，逐步向 DeepSeek 提问。
- 利用上下文：
  DeepSeek 能够记住之前的对话内容，因此在后续的提问中，可以利用上下文来简化问题。
高级玩法
- 角色代入法：
  让 DeepSeek 扮演特定角色来回答问题，例如“你是一位资深程序员，请帮我解释一下 Python 中的递归函数”。
- 跨模态融合：
  结合图片、文字、数据等多种模态进行提问，例如“解读这张用户行为热图，点出三个用户流失的关键点，并用箭头标出改进方向”。
- 逆向提问技巧：
  当不确定具体需求时，让 DeepSeek 帮助你列出关键问题，例如“我现在打算开展某个项目，但不太确定具体需求应该怎么描述，请你帮我列出 5 个关键问题，协助我理清思路”。

通过以上方法，你可以快速上手并高效使用 DeepSeek，充分发挥其在自然语言处理、代码开发和数据分析等方面的优势，提升工作和学习的效率。

5. deepseek的微调和知识库构建

5.1. 微调和知识库

5.1.1. 微调和知识库构建的区别

方面	微调	知识库构建
定义	在特定领域数据集上重新训练预训练的 LLM，使其适应专门任务	通过检索增强生成（RAG）等技术，将外部知识源与 LLM 结合，提升模型回答的准确性和时效性
数据处理	需要高质量的标记数据，数据准备过程包括清理、分割等	需要构建和维护外部知识库，涉及数据的收集、整理、索引等
模型调整	直接修改模型的参数，可能需要对模型架构进行调整	不修改模型参数，通过检索和融合外部知识来增强模型性能
适用场景	适用于需要模型具有特定领域知识和技能的场景，如医疗、法律等	适用于需要快速更新知识、对时效性要求较高的场景，如新闻、客户服务等

5.1.2. 性能差别

方面	微调	知识库构建
资源需求	计算资源和内存需求较高，需要强大的硬件支持	相对较低，主要取决于知识库的规模和检索效率
响应速度	微调后的模型推理速度较快，无需额外检索过程	受检索过程影响，响应速度可能较慢
知识更新	更新知识需要重新训练模型，过程较为繁琐	可以动态更新知识库，快速适应新信息
准确性	在特定领域具有较高的准确性	依赖于知识库的质量和检索算法的准确性

5.1.2. 人员水平要求

方面	微调	知识库构建
技术背景	需要具备深度学习、自然语言处理等专业知识，熟悉模型训练和优化	需要具备数据处理、信息检索等相关知识，熟悉知识库的构建和维护
开发能力	需要较强的编程能力，能够处理复杂的模型训练代码	需要具备一定的编程能力，能够进行数据处理和系统集成
领域知识	对特定领域有深入的了解，能够准确标注和准备训练数据	需要了解知识库所涉及的领域，确保知识的准确性和相关性

5.1.3. 总结

微调更适合需要模型在特定领域具有深度理解和生成能力的场景，但对人员的技术水平和硬件资源要求较高。
知识库构建 更适合需要快速更新知识、对时效性和广度要求较高的场景，对人员的知识管理和系统集成能力有较高要求。

在实际应用中，可以根据具体需求和资源情况，选择微调、知识库构建或两者结合的方式，以充分发挥 DeepSeek 类 LLM 的潜力。

5.2. 微调方法

环境准备：确保已安装 Python、PyTorch、Transformers 等必要的库，并具备足够的计算资源（如 GPU）。
数据准备：准备用于微调的训练数据，格式通常为 JSONL，每行包含一组对话的输入和输出。
加载模型和分词器：使用 AutoModelForCausalLM 和 AutoTokenizer 从预训练的 DeepSeek 模型加载模型和分词器。
配置训练参数：设置训练轮数、批量大小、学习率等超参数。
数据处理：将训练数据转换为模型所需的输入格式，包括分词、截断和填充等操作。
模型微调：使用 Trainer 类进行模型的微调训练，监控训练过程中的指标如损失值等。
保存模型：完成训练后，保存微调后的模型权重和配置文件，以便后续使用。

以下是一个简单的微调示例Python代码：

from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained("deepseek-r1:1.5b")
tokenizer = AutoTokenizer.from_pretrained("deepseek-r1:1.5b")

# 准备训练数据
train_data = [...]  # 你的训练数据

# 配置训练参数
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    learning_rate=2e-5,
    logging_dir="./logs",
)

# 创建 Trainer 实例并进行训练
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_data,
)
trainer.train()

# 保存微调后的模型
model.save_pretrained("./fine_tuned_deepseek")
tokenizer.save_pretrained("./fine_tuned_deepseek")

5.3. 知识库构建

选择技术方案：结合 DeepSeek 模型和 RAG（检索增强生成）技术构建知识库的整体架构。
数据导入和预处理：将需要构建知识库的文档导入系统，通过分块处理将文档切割为语义连贯的片段。
嵌入模型和向量数据库：使用嵌入模型将文本块转化为高维向量，并存储至向量数据库。
配置检索和生成：在问答系统中，配置检索模块从向量数据库中检索相关文本片段，并将问题和相关上下文输入 DeepSeek 模型进行生成。
部署和优化：将构建好的知识库系统部署到合适的环境中，并根据实际使用情况进行性能优化和调整。

5.4. 知识库向量化与 RAG 的方法和运行原理

知识库向量化和 RAG（检索增强生成）是用于增强大型语言模型（LLM）知识和回答准确性的技术。以下是其方法和运行原理的详细说明：

5.4.1. 知识库向量化的方法

知识准备：收集并转换知识文档为文本数据，进行预处理和索引。
嵌入与索引：使用嵌入模型将文本转换为向量，并存储在向量数据库中。
查询检索：用户查询转换为向量，从数据库中检索相关知识。
提示增强：结合检索结果构建增强提示模版。
生成回答：大语言模型根据增强模版生成准确回答。

5.4.2. RAG（检索增强生成）的方法

RAG 是一种结合了检索和生成的技术，旨在通过从外部知识库中检索相关信息来增强语言模型的生成能力。

检索模块（Retriever）：负责从大规模文档集合中快速提取与输入查询相关的信息。通常采用双塔模型（Dual-Encoder）架构，由两个独立的编码器组成，一个用于编码查询，另一个用于编码文档。通过计算查询向量与文档向量之间的相似度，找到最相关的文档。
生成模块（Generator）：将检索到的文档和原始查询一起输入到生成模型中，生成最终的回答或文本输出。

5.4.3. RAG 的运行原理

知识准备：收集并转换知识文档为文本数据，进行预处理和索引。
嵌入与索引：使用嵌入模型将文本转换为向量，并存储在向量数据库中。
查询检索：用户查询转换为向量，从数据库中检索相关知识。
提示增强：结合检索结果构建增强提示模版。
生成回答：大语言模型根据增强模版生成准确回答。

RAG 运行原理：

附录：名词解释

Token
- 定义：Token 是将文本分割成的一个个有意义的片段，模型在处理文本时是以 Token 为单位进行编码和解码的。它可以是一个单词、一个字符、一个标点符号，或者是一个特殊的标记。
- Token 的特点
  - 最小意义单位：Token 是模型可以理解和生成的最小意义单位，是模型的基础单元。例如，在汉语里，一个汉字就可以作为一个 Token。
  - 数值表示：Token 被赋予数值或标识符，并按序列或向量排列，作为模型的输入或输出。
  - 分词方法：根据所使用的特定标记化方案，Token 可以表示单词、单词的一部分，甚至只表示字符。
  - 嵌入表示：为了捕获 Token 之间的意义和语义关系，LLM 采用 Token 编码技术，将 Token 转换为嵌入的密集数字表示。
- Token 的工作原理
  - 标记化（Tokenization）：将自然语言文本分解成 Token 的过程。在这个过程中，文本被分割成小片段，每个片段即为一个 Token。
  - 数值化：在 LLM 内部，Token 被赋予数值或标识符，并以序列的形式输入或从模型输出。
  - 编码与嵌入：将 Token 转换为嵌入的密集数字表示，编码包含语义和上下文信息，使 LLM 能够理解和生成连贯的、上下文相关的文本。
  - 自注意力机制：Transformer 模型采用自注意力机制来学习 Token 之间的依赖关系，计算每个 Token 与其他 Token 之间的注意力权重。
  - 生成与预测：LLM 通过预测下一个 Token 的概率分布来生成文本，根据已生成的 Token 序列，模型预测下一个最可能的 Token。
- Token 的应用场景
  - 文本生成：在文本生成任务中，如写作辅助、内容创作等，LLM 根据输入的提示 Token 序列生成后续的文本内容。
  - 机器翻译：将源语言文本的 Token 序列转换为目标语言的 Token 序列，实现不同语言之间的翻译。
  - 问答系统：用户提出问题的 Token 序列，LLM 分析并生成包含答案的 Token 序列。
  - 文本分类：对文本的 Token 序列进行分析，确定文本所属的类别。
- Token 用量计算
  - token 是模型用来表示自然语言文本的基本单位，也是我们的计费单元，可以直观的理解为“字”或“词”；通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。
  - 一般情况下模型中 token 和字数的换算比例大致如下：
    - 1 个英文字符 ≈ 0.3 个 token。
    - 1 个中文字符 ≈ 0.6 个 token。
  - 但因为不同模型的分词不同，所以换算比例也存在差异，每一次实际处理 token 数量以模型返回为准。
API
- 定义：API 是应用程序编程接口（Application Programming Interface）的缩写，它定义了软件或系统之间进行交互和通信的规则和方法。
- 应用场景：
  - Web 开发：用于前后端交互，客户端通过 API 请求服务器资源或数据。
  - 移动应用：移动应用通过 API 与服务器通信，获取数据或调用服务。
  - 云服务：用户通过 API 访问云服务提供商的各种服务，如计算、存储等。
- 在 DeepSeek 中的作用：DeepSeek 提供了一系列接口 API，供用户与模型进行交互，如文本生成接口、图像生成接口、问答接口等。
Agent
- 定义：Agent 是一种能够感知环境、自主决策并执行行动以实现特定目标的智能体。在 LLM（大型语言模型）语境下，Agent 可以理解为能自主理解、规划决策、执行复杂任务的智能体。
- 组成部分：
  - 规划（Planning）：负责拆解复杂任务为可执行的子任务，并评估执行策略。
  - 记忆（Memory）：包括短期记忆和长期记忆，用于存储会话上下文和长时间保留的信息。
  - 工具（Tools）：Agent 感知环境、执行决策的辅助手段，如 API 调用、插件扩展等。
  - 行动（Action）：将规划与记忆转化为具体输出的过程，包括与外部环境的互动或工具调用。
- 在 DeepSeek 中的应用：DeepSeek 可以作为 Agent 的核心模型，为其提供推理和决策能力，帮助 Agent 完成各种复杂任务。
大模型
- 定义：大模型（Large Model）是指具有大量参数和复杂结构的机器学习模型，能够处理海量数据、完成各种复杂的任务，如自然语言处理、计算机视觉、语音识别等。
- 特点：
  - 参数量大：通常具有数十亿甚至上百亿的参数。
  - 通用性强：能够适应多种不同的任务和领域。
  - 性能卓越：在多个领域表现出色，能够达到或超越人类水平。
NVLink
- 定义：NVLink 是英伟达推出的一项专门用于 GPU 加速计算的高性能互联技术，旨在提升 GPU 之间的数据通信效率和 GPU 访问主机内存的性能。
- 特点：
  - 高带宽：相比传统的 PCIe 技术，NVLink 提供更高的带宽，例如第四代 NVLink 连接主机和加速处理器的速度高达每秒 900GB/s。
  - 低延迟：NVLink 技术能够实现低延迟的数据传输，从而加快 GPU 之间的通信速度。
  - 节能高效：NVLink 的能效比 PCIe 更高，每传输 1 字节数据仅消耗较少的能量。
- 应用场景：广泛应用于多 GPU 系统中，特别是在 AI、深度学习、科学计算等领域，能够满足高速计算对数据交互的需求。
InfiniBand
- 定义：InfiniBand 是一种高性能的计算机网络技术，专为数据中心和高性能计算（HPC）环境设计，提供高速的数据传输率、低延迟以及高可靠性。
- 特点：
  - 高带宽：InfiniBand 提供比传统以太网更高的数据传输速度，例如 HDR InfiniBand 支持高达每秒 200 吉比特的数据传输速率。
  - 低延迟：它能够实现低延迟的通信，这对于需要快速数据交换的高性能计算和 AI 应用非常重要。
  - RDMA 支持：InfiniBand 支持远程直接内存访问（RDMA），允许数据在两台计算机的内存之间直接传输而无需 CPU 参与，从而提高效率。
- 应用场景：广泛应用于高性能计算集群、大规模数据中心以及需要高速、低延迟通信的场景。
DDR5 ECC
- 定义：DDR5 ECC 是一种具有纠错码（Error-Correcting Code）功能的第五代双倍数据速率同步动态随机存取存储器技术。
- 特点：
  - 高速度：DDR5 相比 DDR4 具有更高的数据传输速率，能够满足现代计算对内存带宽的需求。
  - 纠错功能：ECC（Error-Correcting Code）能够自动检测并纠正内存中的单比特错误，提高系统的稳定性和可靠性。
  - 低功耗：DDR5 在降低功耗方面进行了优化，有助于减少能源消耗。
- 应用场景：适用于对内存性能和可靠性要求较高的服务器、工作站以及高性能计算设备等。
NVMe SSD
- 定义：NVMe（Non-Volatile Memory Express）是一种通信接口和驱动程序，为基于 PCIe（Peripheral Component Interconnect Express）的 SSD（固态硬盘）定义了命令集和功能集，旨在提高性能和效率。
- 特点：
  - 高性能：NVMe SSD 相比传统的 SATA SSD，具有更高的读写速度和更低的延迟，能够显著提升系统的响应速度和数据处理能力。
  - 高效率：通过优化的命令集和并行处理能力，NVMe SSD 能够更高效地利用 PCIe 接口的带宽，提高存储设备的整体性能。
  - 可扩展性：NVMe 支持多种设备类型和接口规范，适用于从客户端到企业级的各种应用场景。
- 应用场景：广泛应用于需要高性能存储的场景，如数据中心、高性能计算、企业级存储系统以及高端个人计算机等。
混合专家架构（MoE）