国内外大语言模型(LLM)超详细总结与代码实战(可用于面试或学习,持续更新)-----国内篇-CSDN博客

本文链接：https://blog.csdn.net/qq_43664407/article/details/148149167

国内：

国外篇链接为：国内外大语言模型(LLM)超详细总结与代码实战(可用于面试或学习,持续更新)-----国外篇-CSDN博客

一、Qwen 系列（Qwen-7B / Qwen-14B 等）

1. 基本用途

核心任务：通用对话生成、问答、写作辅助、编程辅助
典型应用：
- 智能客服与多轮对话机器人
- 文本补全、摘要、翻译
- 代码生成与代码审查

2. 工作原理流程

输入表示
- 使用混合中英文及代码语料训练的 SentencePiece 分词器，将输入切分为 ~50K sub-word tokens；
- 每个 token 映射为向量（token embedding），并加上可学习的位置编码。
多层自回归解码器
- Masked Multi-Head Self-Attention：
  - 对每个 token 计算 Q/K/V，并通过左侧上下文掩码保证自回归；
  - 多头并行后拼接、线性映射，残差连接＋LayerNorm。
- 前馈网络（Feed-Forward Network）：
  - 两层全连接＋GELU 激活，中间维度通常为隐藏维度的 4 倍；
  - 残差连接＋LayerNorm，增强表达稳定性。
- Qwen-7B/14B 分别堆叠 ~32/40 层解码器，注意力头数和隐藏维度随规模线性扩展。
预训练与优化
- 采用大规模中英文混合语料及开源代码库，使用自回归语言建模目标；
- 优化器为 AdamW，线性 warm-up + cosine decay，混合精度训练（FP16）。
推理生成
- Prompt Formatting：直接将用户输入作为上下文，不需要特殊前缀；
- Tokenize → Embedding → 解码器前向：一层层执行 Self-Attention + FFN；
- KV 缓存：缓存所有层的键值对，避免重复计算；
- 采样策略：支持 greedy、beam search、top-k/top-p、temperature 控制；
- 生成直至遇到 EOS token。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "qwen/Qwen-7B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "请简要说明区块链的工作原理。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=150, top_p=0.9, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

注意：上述只介绍qwen, 后面的qwen2, qwen2.5主要改变为扩大数据规模或者加深网络结构，这里不做详细介绍，但是qwen3有重大改进，这里放一下：

Qwen3 (2025.05)

架构层面重大创新，引入：

思维模式（Thinking Mode） 和 非思维模式 的统一框架（动态推理路径选择）

思维预算机制（Thinking Budget）：控制推理成本 vs 精度的平衡。

模型规模拓展至：

密集模型（最大达 235B）

MoE 混合专家模型（可按需激活）

多语言支持扩展至 119 种语言/方言。

更强的任务自适应能力（例如多轮复杂任务、规划与代理任务）

二、ChatGLM 系列（智谱 AI）

1. 基本用途

核心任务：中文对话、问答与生成
典型应用：
- 多轮中文对话机器人
- 文档检索与智能摘要
- 行业问答（金融、医疗等领域）

2. 工作原理流程

输入表示
- 基于 WordPiece 的 sub-word 分词，词表大小 ~30K；
- 双向+自回归混合嵌入：既有全句双向上下文编码，也支持自回归生成模式。
双向＋自回归混合 Transformer
- 双向编码阶段：
  - 类似 BERT 的多头自注意力，所有 token 间互相可见，用于理解输入；
- 自回归解码阶段：
  - 在生成时对已生成部分使用左侧掩码注意力，保证自回归特性；
- 每层包含双向 Attention 输出与自回归 Attention 输出融合，再经 FFN 提炼。
预训练与微调
- 先在大规模中文通用语料上预训练掩码 LM 与自回归 LM 混合目标；
- 再在多轮对话数据上微调，并加入安全策略过滤违规内容。
推理生成
- 历史管理：保留对话历史 token，动态扩展输入；
- Tokenize → 编码 → 解码：先双向理解，再自回归生成；
- 缓存与融合：双向上下文无需重复，缓存 KV；生成时只更新自回归部分；
- 后处理：内置敏感词库与规则过滤，保证输出合规。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained(
    "THUDM/chatglm-6b",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
).eval()

response, _ = model.chat(tokenizer, "什么是机器过拟合？", history=[])
print(response)

三、文心 ERNIE 系列（百度）

1. 基本用途

核心任务：知识增强的预训练与生成
典型应用：
- 智能问答与对话
- 文本摘要、翻译
- 检索增强生成（RAG）

2. 工作原理流程

知识增强预训练
- 在通用语料上预训练 Masked LM，同时引入实体关系图谱作为额外输入；
- 对知识三元组进行编码，通过专门的知识注意力层融合到文本表示。
多任务混合
- 包含 Masked LM、Sentence Order Prediction、知识三元组预测等多种目标；
- 训练时多任务交替，模型学习到更丰富的语义与世界知识。
微调与下游适配
- 对问答、对话、摘要等任务分别添加专用头；
- 支持 RAG：检索器检索相关文档，生成器在预训练知识+检索知识基础上生成答案。
推理流程
- Tokenize + 实体标注：输入文本先做 NER 和实体链接；
- Embedding → 知识注意力 → 文本注意力：先融合知识向量，再与文本互 Attention；
- 输出生成或分类：根据任务类型输出；自动过滤与重写不良内容。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_name = "baidu/ernie-3.0-titan-zh"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to("cuda")

input_text = "请用中文总结一下人工智能的发展历程。"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
out = model.generate(**inputs, max_length=256)
print(tokenizer.decode(out[0], skip_special_tokens=True))

四、通义千问（Alibaba Tongyi Qianwen）

1. 基本用途

核心任务：多模态问答、对话与文档理解
典型应用：
- 企业智能客服
- 智能文档问答与信息抽取
- 图文交互式应用

2. 工作原理流程

大规模混合预训练
- 文本与图像对齐任务：同时在文本语料和图文对上预训练；
- 文本部分自回归建模，图像部分采用 ViT 编码器。
跨模态融合层
- 在 Transformer 解码器中，交替计算文本→文本、文本→图像、图像→文本注意力；
- 多模态 Token 在同一序列内并行处理，实现深度融合。
指令与对话微调
- 构建混合文本、图像的指令数据集，模型学习按格式生成图文混合回答；
- 多轮对话数据上微调，引入角色标签和上下文管理。
推理与部署
- Prompt Formatting：文本 + Base64 图像并行输入；
- Tokenize & Visual Embed：并行生成嵌入向量序列；
- 融合解码：自回归生成多模态回答；
- 安全过滤：文本和图像内容分步审核。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "alibaba/tongyi-qianwen-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "帮我分析这段销售报告的核心结论。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
res = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(res[0], skip_special_tokens=True))

五、星火系列（iFLYTEK Spark）

1. 基本用途

核心任务：行业定制化对话与知识问答
典型应用：
- 医疗、金融、教育等领域专用 AI 助手
- 长文档自动摘要与分析
- 智能写作与代码生成

2. 工作原理流程

领域语料预处理
- 汇集行业白皮书、专业文档与常见问答对；
- 特定领域术语词表扩充，保证专有名词拆分准确。
自回归 + 指令微调
- 先在通用语料上预训练，再在行业语料和指令数据上微调；
- 引入示例驱动（few-shot prompt）策略，提升专业问答准确性。
混合注意力优化
- 增加对长文本的稀疏注意力模式，支持上万 token 长文处理；
- 使用 FlashAttention 与 KV 缓存提升推理速度。
推理与安全
- Prompt formatting：支持多段式输入，按业务场景拼接；
- 后处理：行业知识库检索结合生成结果校验，剔除不准确内容。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("iFLYTEK/spark-7b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "iFLYTEK/spark-7b",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "请简述区块链的工作原理及其在金融领域的应用。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=200, top_p=0.9)
print(tokenizer.decode(gen[0], skip_special_tokens=True))

六、盘古系列（Huawei Pangu）

1. 基本用途

核心任务：通用文本理解与生成，多语种支持
典型应用：
- 智能客服与知识问答
- 文本生成、翻译、摘要
- 企业级 API 服务

2. 工作原理流程

大规模中文与多语种预处理
- 汇聚中文网页、新闻、百科与多语种平行语料；
- 多语种均衡采样，Vocabulary 包含常用中英子词。
自回归解码器架构
- 多层 Masked Self-Attention + FFN；
- 支持最大 16K Token 上下文，处理超长文档。
预训练优化
- 使用混合精度、梯度累积、分布式并行（Model/Data Parallel）；
- 动态批次长度与序列打包，提升 GPU 利用率。
API 服务与安全
- 提供华为云 Pangu API，隐藏模型实现细节；
- 内置内容安全策略，支持企业关键词黑白名单定制化。

3. 完整代码示例

盘古模型主要通过华为云 API 调用，示例：

import requests, json

api_url = "https://pangu-api.huaweicloud.com/v1/chat/completions"
headers = {"Authorization": "Bearer YOUR_TOKEN", "Content-Type": "application/json"}
data = {
  "model": "pangu-alpha-1.0",
  "messages": [
    {"role": "user", "content": "请解释下深度学习中的梯度消失问题。"}
  ]
}
res = requests.post(api_url, headers=headers, data=json.dumps(data))
print(res.json()["choices"][0]["message"]["content"])

七、DeepSeek系列

1. DeepSeek-Coder 系列

（Code Intelligence 子系列，8 个模型：4 个 Base + 4 个 Instruct，16K context）

1. 基本用途

核心任务：编程语言理解与生成、代码补全、代码审查
典型应用：
- IDE 内联代码提示
- 自动化单元测试生成
- 复杂多步骤脚本编写

2. 工作原理流程（更详细）

预训练阶段（Pretraining）
- 语料构成：共 1.8T tokens，87% 为源代码，10% 为代码相关英文（GitHub Markdown、StackExchange），3% 为中文自然语言；
- 目标：自回归语言建模，学习代码语法、API 使用模式。
长上下文预训练（Long-Context Training）
- 额外语料：200B tokens，用于扩展 context window 从 4K 到 16K；
- 效果：Base 模型具备长代码文件补全与跨函数依赖建模能力。
指令微调（Supervised Finetuning, SFT）
- 数据集：2B tokens 的人类编写指令-回应对（包括代码生成、注释、重构示例）；
- 目标：生成符合开发者意图的可执行代码，并附带必要注释。
模型规模与架构
- 层数从 24 → 62，隐藏维度从 2048 → 7168，注意力头数 16–56 不等；
- 使用标准解码器-only Transformer（RoPE + RMSNorm + SwiGLU）。
推理与部署
- Prompt Formatting：以自然语言指令或已有代码片段为上下文；
- 缓存 KV、FlashAttention 等优化，保证 16K token 下高效推理；
- 支持 HuggingFace Transformers、ONNX、自研 C++ 服务。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-Coder-5.7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "# 写一个函数，实现两个数相加\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=100, temperature=0.2)
print(tokenizer.decode(gen[0], skip_special_tokens=True))

2. DeepSeek-LLM 系列

（通用文本生成 7B & 67B，Base + Chat 形式）

1. 基本用途

核心任务：通用语言理解与生成、少样本/零样本任务
典型应用：
- 多轮对话助手
- 文本摘要、翻译
- 问答与知识检索

2. 工作原理流程（更详细）

基础预训练
- 语料：2T tokens 中英文混合，来源于去重后的 CommonCrawl；
- 架构：解码器-only Transformer，预归一化（Pre-Norm）设计，RMSNorm 归一化，SwiGLU 激活；
- 注意力：RoPE 位置编码 + Grouped-Query Attention (GQA) 提升长序列效率。
微调流程
- SFT（Supervised Finetuning）：在示例驱动数据上做指令微调，生成更符合用户意图的回答；
- DPO（Direct Policy Optimization）：结合人类偏好数据，用策略梯度进一步优化生成质量。
模型细节
- 7B 模型：30 层，隐藏 4,096，FFN 中间 11,008，32 头；
- 67B 模型：95 层，隐藏 8,192，FFN 中间 22,016，64 头。
推理与优化
- KV 缓存：自回归过程中缓存所有层键值对；
- FlashAttention：降低显存，占用；
- 并行部署：支持 tensor parallel + pipeline parallel。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-LLM-7B-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float16, 
    device_map="auto",
    trust_remote_code=True
)

prompt = "User: 请问机器学习中的正则化有什么作用？\nAssistant:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=150, top_p=0.9, temperature=0.7)
print(tokenizer.decode(gen[0], skip_special_tokens=True))

3. DeepSeek-R1

（高阶推理与数学/代码竞赛专用）

1. 基本用途

核心任务：逻辑推理、数学题解答、编程考试辅助
典型应用：
- 数学竞赛题（AIME、MATH）解题
- 复杂编程题自动解答
- 实时推理助手

2. 工作原理流程（更详细）

基础预训练
- 基于 DeepSeek-V3-Base（MoE 架构）训练，继承大规模通用能力；
监督微调（SFT）
- 在逻辑推理、数学题库、算法题目数据上做有标签微调；
模型蒸馏（Distillation）
- R1-Distill：从大模型向轻量模型蒸馏生成策略，保证推理速度；
强化学习（RL）
- R1-Zero：仅用基于规则的奖励（准确性 + 格式）通过 GRPO 强化训练；
- R1：在 R1-Zero 基础上补充人类质量反馈，提升可读性与多语言一致性；
推理与部署
- Prompt Formatting：题目 + 限制格式（如回答内需包含解题思路标签）；
- KV 缓存 + 并行：确保长推理链路高效；
- 后处理：答案校验、格式化输出。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-R1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float16, 
    device_map="auto"
)

prompt = "Solve: 若x^2 - 5x + 6 = 0，求x的值，并给出解题思路。\nAnswer:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=100, temperature=0.0)
print(tokenizer.decode(gen[0], skip_special_tokens=True))

4. DeepSeek-V3

（下一代 MoE 大模型，671B 参数，37B 激活）

1. 基本用途

核心任务：高效大规模语言建模、推理与多任务能力
典型应用：
- 多领域问答与文本生成
- 强化学习与大规模推理系统
- 科研级别逻辑推理

2. 工作原理流程（更详细）

Mixture-of-Experts 架构
- 全局参数：671B 总参数量；
- 激活子网：每 token 仅激活 37B 参数，基于 DeepSeekMoE 路由器分配；
Multi-head Latent Attention (MLA)
- 在专家路由前加入潜在注意力层，分配 token 到不同专家组；
无辅助损失策略
- 摒弃传统 MoE load-balancing 辅助损失，使用多 token 预测目标稳定路由分布；
高效训练
- Megatron-DeepSpeed 混合并行，FP16 + 动态损失缩放，梯度累积；
推理与优化
- 专家路由加速：仅激活部分专家，减少计算；
- FlashAttention + KV 缓存：支持超大 context 高速生成；
- 动态批次：多 prompt 拼接，提高 GPU 利用率。

3. 完整代码示例

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-V3"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "Explain the significance of the Fourier transform in signal processing."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=150, top_p=0.9)
print(tokenizer.decode(gen[0], skip_special_tokens=True))