国内:
国外篇链接为:国内外大语言模型(LLM)超详细总结与代码实战(可用于面试或学习,持续更新)-----国外篇-CSDN博客
一、Qwen 系列(Qwen-7B / Qwen-14B 等)
1. 基本用途
-
核心任务:通用对话生成、问答、写作辅助、编程辅助
-
典型应用:
-
智能客服与多轮对话机器人
-
文本补全、摘要、翻译
-
代码生成与代码审查
-
2. 工作原理流程
-
输入表示
-
使用混合中英文及代码语料训练的 SentencePiece 分词器,将输入切分为 ~50K sub-word tokens;
-
每个 token 映射为向量(token embedding),并加上可学习的位置编码。
-
-
多层自回归解码器
-
Masked Multi-Head Self-Attention:
-
对每个 token 计算 Q/K/V,并通过左侧上下文掩码保证自回归;
-
多头并行后拼接、线性映射,残差连接+LayerNorm。
-
-
前馈网络(Feed-Forward Network):
-
两层全连接+GELU 激活,中间维度通常为隐藏维度的 4 倍;
-
残差连接+LayerNorm,增强表达稳定性。
-
-
Qwen-7B/14B 分别堆叠 ~32/40 层解码器,注意力头数和隐藏维度随规模线性扩展。
-
-
预训练与优化
-
采用大规模中英文混合语料及开源代码库,使用自回归语言建模目标;
-
优化器为 AdamW,线性 warm-up + cosine decay,混合精度训练(FP16)。
-
-
推理生成
-
Prompt Formatting:直接将用户输入作为上下文,不需要特殊前缀;
-
Tokenize → Embedding → 解码器前向:一层层执行 Self-Attention + FFN;
-
KV 缓存:缓存所有层的键值对,避免重复计算;
-
采样策略:支持 greedy、beam search、top-k/top-p、temperature 控制;
-
生成直至遇到 EOS token。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "qwen/Qwen-7B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
prompt = "请简要说明区块链的工作原理。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=150, top_p=0.9, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
注意:上述只介绍qwen, 后面的qwen2, qwen2.5主要改变为扩大数据规模或者加深网络结构,这里不做详细介绍,但是qwen3有重大改进,这里放一下:
Qwen3 (2025.05)
架构层面重大创新,引入:
思维模式(Thinking Mode) 和 非思维模式 的统一框架(动态推理路径选择)
思维预算机制(Thinking Budget):控制推理成本 vs 精度的平衡。
模型规模拓展至:
密集模型(最大达 235B)
MoE 混合专家模型(可按需激活)
多语言支持扩展至 119 种语言/方言。
更强的任务自适应能力(例如多轮复杂任务、规划与代理任务)
二、ChatGLM 系列(智谱 AI)
1. 基本用途
-
核心任务:中文对话、问答与生成
-
典型应用:
-
多轮中文对话机器人
-
文档检索与智能摘要
-
行业问答(金融、医疗等领域)
-
2. 工作原理流程
-
输入表示
-
基于 WordPiece 的 sub-word 分词,词表大小 ~30K;
-
双向+自回归混合嵌入:既有全句双向上下文编码,也支持自回归生成模式。
-
-
双向+自回归混合 Transformer
-
双向编码阶段:
-
类似 BERT 的多头自注意力,所有 token 间互相可见,用于理解输入;
-
-
自回归解码阶段:
-
在生成时对已生成部分使用左侧掩码注意力,保证自回归特性;
-
-
每层包含双向 Attention 输出与自回归 Attention 输出融合,再经 FFN 提炼。
-
-
预训练与微调
-
先在大规模中文通用语料上预训练掩码 LM 与自回归 LM 混合目标;
-
再在多轮对话数据上微调,并加入安全策略过滤违规内容。
-
-
推理生成
-
历史管理:保留对话历史 token,动态扩展输入;
-
Tokenize → 编码 → 解码:先双向理解,再自回归生成;
-
缓存与融合:双向上下文无需重复,缓存 KV;生成时只更新自回归部分;
-
后处理:内置敏感词库与规则过滤,保证输出合规。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModel
import torch
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained(
"THUDM/chatglm-6b",
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
).eval()
response, _ = model.chat(tokenizer, "什么是机器过拟合?", history=[])
print(response)
三、文心 ERNIE 系列(百度)
1. 基本用途
-
核心任务:知识增强的预训练与生成
-
典型应用:
-
智能问答与对话
-
文本摘要、翻译
-
检索增强生成(RAG)
-
2. 工作原理流程
-
知识增强预训练
-
在通用语料上预训练 Masked LM,同时引入实体关系图谱作为额外输入;
-
对知识三元组进行编码,通过专门的知识注意力层融合到文本表示。
-
-
多任务混合
-
包含 Masked LM、Sentence Order Prediction、知识三元组预测等多种目标;
-
训练时多任务交替,模型学习到更丰富的语义与世界知识。
-
-
微调与下游适配
-
对问答、对话、摘要等任务分别添加专用头;
-
支持 RAG:检索器检索相关文档,生成器在预训练知识+检索知识基础上生成答案。
-
-
推理流程
-
Tokenize + 实体标注:输入文本先做 NER 和实体链接;
-
Embedding → 知识注意力 → 文本注意力:先融合知识向量,再与文本互 Attention;
-
输出生成或分类:根据任务类型输出;自动过滤与重写不良内容。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
model_name = "baidu/ernie-3.0-titan-zh"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to("cuda")
input_text = "请用中文总结一下人工智能的发展历程。"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
out = model.generate(**inputs, max_length=256)
print(tokenizer.decode(out[0], skip_special_tokens=True))
四、通义千问(Alibaba Tongyi Qianwen)
1. 基本用途
-
核心任务:多模态问答、对话与文档理解
-
典型应用:
-
企业智能客服
-
智能文档问答与信息抽取
-
图文交互式应用
-
2. 工作原理流程
-
大规模混合预训练
-
文本与图像对齐任务:同时在文本语料和图文对上预训练;
-
文本部分自回归建模,图像部分采用 ViT 编码器。
-
-
跨模态融合层
-
在 Transformer 解码器中,交替计算文本→文本、文本→图像、图像→文本注意力;
-
多模态 Token 在同一序列内并行处理,实现深度融合。
-
-
指令与对话微调
-
构建混合文本、图像的指令数据集,模型学习按格式生成图文混合回答;
-
多轮对话数据上微调,引入角色标签和上下文管理。
-
-
推理与部署
-
Prompt Formatting:文本 + Base64 图像并行输入;
-
Tokenize & Visual Embed:并行生成嵌入向量序列;
-
融合解码:自回归生成多模态回答;
-
安全过滤:文本和图像内容分步审核。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "alibaba/tongyi-qianwen-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
prompt = "帮我分析这段销售报告的核心结论。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
res = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(res[0], skip_special_tokens=True))
五、星火系列(iFLYTEK Spark)
1. 基本用途
-
核心任务:行业定制化对话与知识问答
-
典型应用:
-
医疗、金融、教育等领域专用 AI 助手
-
长文档自动摘要与分析
-
智能写作与代码生成
-
2. 工作原理流程
-
领域语料预处理
-
汇集行业白皮书、专业文档与常见问答对;
-
特定领域术语词表扩充,保证专有名词拆分准确。
-
-
自回归 + 指令微调
-
先在通用语料上预训练,再在行业语料和指令数据上微调;
-
引入示例驱动(few-shot prompt)策略,提升专业问答准确性。
-
-
混合注意力优化
-
增加对长文本的稀疏注意力模式,支持上万 token 长文处理;
-
使用 FlashAttention 与 KV 缓存提升推理速度。
-
-
推理与安全
-
Prompt formatting:支持多段式输入,按业务场景拼接;
-
后处理:行业知识库检索结合生成结果校验,剔除不准确内容。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("iFLYTEK/spark-7b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"iFLYTEK/spark-7b",
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
prompt = "请简述区块链的工作原理及其在金融领域的应用。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=200, top_p=0.9)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
六、盘古系列(Huawei Pangu)
1. 基本用途
-
核心任务:通用文本理解与生成,多语种支持
-
典型应用:
-
智能客服与知识问答
-
文本生成、翻译、摘要
-
企业级 API 服务
-
2. 工作原理流程
-
大规模中文与多语种预处理
-
汇聚中文网页、新闻、百科与多语种平行语料;
-
多语种均衡采样,Vocabulary 包含常用中英子词。
-
-
自回归解码器架构
-
多层 Masked Self-Attention + FFN;
-
支持最大 16K Token 上下文,处理超长文档。
-
-
预训练优化
-
使用混合精度、梯度累积、分布式并行(Model/Data Parallel);
-
动态批次长度与序列打包,提升 GPU 利用率。
-
-
API 服务与安全
-
提供华为云 Pangu API,隐藏模型实现细节;
-
内置内容安全策略,支持企业关键词黑白名单定制化。
-
3. 完整代码示例
盘古模型主要通过华为云 API 调用,示例:
import requests, json
api_url = "https://pangu-api.huaweicloud.com/v1/chat/completions"
headers = {"Authorization": "Bearer YOUR_TOKEN", "Content-Type": "application/json"}
data = {
"model": "pangu-alpha-1.0",
"messages": [
{"role": "user", "content": "请解释下深度学习中的梯度消失问题。"}
]
}
res = requests.post(api_url, headers=headers, data=json.dumps(data))
print(res.json()["choices"][0]["message"]["content"])
七、DeepSeek系列
1. DeepSeek-Coder 系列
(Code Intelligence 子系列,8 个模型:4 个 Base + 4 个 Instruct,16K context)
1. 基本用途
-
核心任务:编程语言理解与生成、代码补全、代码审查
-
典型应用:
-
IDE 内联代码提示
-
自动化单元测试生成
-
复杂多步骤脚本编写
-
2. 工作原理流程(更详细)
-
预训练阶段(Pretraining)
-
语料构成:共 1.8T tokens,87% 为源代码,10% 为代码相关英文(GitHub Markdown、StackExchange),3% 为中文自然语言;
-
目标:自回归语言建模,学习代码语法、API 使用模式。
-
-
长上下文预训练(Long-Context Training)
-
额外语料:200B tokens,用于扩展 context window 从 4K 到 16K;
-
效果:Base 模型具备长代码文件补全与跨函数依赖建模能力。
-
-
指令微调(Supervised Finetuning, SFT)
-
数据集:2B tokens 的人类编写指令-回应对(包括代码生成、注释、重构示例);
-
目标:生成符合开发者意图的可执行代码,并附带必要注释。
-
-
模型规模与架构
-
层数从 24 → 62,隐藏维度从 2048 → 7168,注意力头数 16–56 不等;
-
使用标准解码器-only Transformer(RoPE + RMSNorm + SwiGLU)。
-
-
推理与部署
-
Prompt Formatting:以自然语言指令或已有代码片段为上下文;
-
缓存 KV、FlashAttention 等优化,保证 16K token 下高效推理;
-
支持 HuggingFace Transformers、ONNX、自研 C++ 服务。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "deepseek-ai/DeepSeek-Coder-5.7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
prompt = "# 写一个函数,实现两个数相加\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=100, temperature=0.2)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
2. DeepSeek-LLM 系列
(通用文本生成 7B & 67B,Base + Chat 形式)
1. 基本用途
-
核心任务:通用语言理解与生成、少样本/零样本任务
-
典型应用:
-
多轮对话助手
-
文本摘要、翻译
-
问答与知识检索
-
2. 工作原理流程(更详细)
-
基础预训练
-
语料:2T tokens 中英文混合,来源于去重后的 CommonCrawl;
-
架构:解码器-only Transformer,预归一化(Pre-Norm)设计,RMSNorm 归一化,SwiGLU 激活;
-
注意力:RoPE 位置编码 + Grouped-Query Attention (GQA) 提升长序列效率。
-
-
微调流程
-
SFT(Supervised Finetuning):在示例驱动数据上做指令微调,生成更符合用户意图的回答;
-
DPO(Direct Policy Optimization):结合人类偏好数据,用策略梯度进一步优化生成质量。
-
-
模型细节
-
7B 模型:30 层,隐藏 4,096,FFN 中间 11,008,32 头;
-
67B 模型:95 层,隐藏 8,192,FFN 中间 22,016,64 头。
-
-
推理与优化
-
KV 缓存:自回归过程中缓存所有层键值对;
-
FlashAttention:降低显存,占用;
-
并行部署:支持 tensor parallel + pipeline parallel。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "deepseek-ai/DeepSeek-LLM-7B-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
prompt = "User: 请问机器学习中的正则化有什么作用?\nAssistant:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=150, top_p=0.9, temperature=0.7)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
3. DeepSeek-R1
(高阶推理与数学/代码竞赛专用)
1. 基本用途
-
核心任务:逻辑推理、数学题解答、编程考试辅助
-
典型应用:
-
数学竞赛题(AIME、MATH)解题
-
复杂编程题自动解答
-
实时推理助手
-
2. 工作原理流程(更详细)
-
基础预训练
-
基于 DeepSeek-V3-Base(MoE 架构)训练,继承大规模通用能力;
-
-
监督微调(SFT)
-
在逻辑推理、数学题库、算法题目数据上做有标签微调;
-
-
模型蒸馏(Distillation)
-
R1-Distill:从大模型向轻量模型蒸馏生成策略,保证推理速度;
-
-
强化学习(RL)
-
R1-Zero:仅用基于规则的奖励(准确性 + 格式)通过 GRPO 强化训练;
-
R1:在 R1-Zero 基础上补充人类质量反馈,提升可读性与多语言一致性;
-
-
推理与部署
-
Prompt Formatting:题目 + 限制格式(如回答内需包含解题思路标签);
-
KV 缓存 + 并行:确保长推理链路高效;
-
后处理:答案校验、格式化输出。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "deepseek-ai/DeepSeek-R1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
)
prompt = "Solve: 若x^2 - 5x + 6 = 0,求x的值,并给出解题思路。\nAnswer:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=100, temperature=0.0)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
4. DeepSeek-V3
(下一代 MoE 大模型,671B 参数,37B 激活)
1. 基本用途
-
核心任务:高效大规模语言建模、推理与多任务能力
-
典型应用:
-
多领域问答与文本生成
-
强化学习与大规模推理系统
-
科研级别逻辑推理
-
2. 工作原理流程(更详细)
-
Mixture-of-Experts 架构
-
全局参数:671B 总参数量;
-
激活子网:每 token 仅激活 37B 参数,基于 DeepSeekMoE 路由器分配;
-
-
Multi-head Latent Attention (MLA)
-
在专家路由前加入潜在注意力层,分配 token 到不同专家组;
-
-
无辅助损失策略
-
摒弃传统 MoE load-balancing 辅助损失,使用多 token 预测目标稳定路由分布;
-
-
高效训练
-
Megatron-DeepSpeed 混合并行,FP16 + 动态损失缩放,梯度累积;
-
-
推理与优化
-
专家路由加速:仅激活部分专家,减少计算;
-
FlashAttention + KV 缓存:支持超大 context 高速生成;
-
动态批次:多 prompt 拼接,提高 GPU 利用率。
-
3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "deepseek-ai/DeepSeek-V3"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
prompt = "Explain the significance of the Fourier transform in signal processing."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=150, top_p=0.9)
print(tokenizer.decode(gen[0], skip_special_tokens=True))