国内外大语言模型(LLM)超详细总结与代码实战​(可用于面试或学习,持续更新)-----国内篇

 国内:

  国外篇链接为:国内外大语言模型(LLM)超详细总结与代码实战​(可用于面试或学习,持续更新)-----国外篇-CSDN博客

一、Qwen 系列(Qwen-7B / Qwen-14B 等)

1. 基本用途
  • 核心任务:通用对话生成、问答、写作辅助、编程辅助

  • 典型应用

    • 智能客服与多轮对话机器人

    • 文本补全、摘要、翻译

    • 代码生成与代码审查

2. 工作原理流程
  1. 输入表示

    • 使用混合中英文及代码语料训练的 SentencePiece 分词器,将输入切分为 ~50K sub-word tokens;

    • 每个 token 映射为向量(token embedding),并加上可学习的位置编码。

  2. 多层自回归解码器

    • Masked Multi-Head Self-Attention

      • 对每个 token 计算 Q/K/V,并通过左侧上下文掩码保证自回归;

      • 多头并行后拼接、线性映射,残差连接+LayerNorm。

    • 前馈网络(Feed-Forward Network)

      • 两层全连接+GELU 激活,中间维度通常为隐藏维度的 4 倍;

      • 残差连接+LayerNorm,增强表达稳定性。

    • Qwen-7B/14B 分别堆叠 ~32/40 层解码器,注意力头数和隐藏维度随规模线性扩展。

  3. 预训练与优化

    • 采用大规模中英文混合语料及开源代码库,使用自回归语言建模目标;

    • 优化器为 AdamW,线性 warm-up + cosine decay,混合精度训练(FP16)。

  4. 推理生成

    • Prompt Formatting:直接将用户输入作为上下文,不需要特殊前缀;

    • Tokenize → Embedding → 解码器前向:一层层执行 Self-Attention + FFN;

    • KV 缓存:缓存所有层的键值对,避免重复计算;

    • 采样策略:支持 greedy、beam search、top-k/top-p、temperature 控制;

    • 生成直至遇到 EOS token。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "qwen/Qwen-7B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "请简要说明区块链的工作原理。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=150, top_p=0.9, temperature=0.7)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

注意:上述只介绍qwen, 后面的qwen2, qwen2.5主要改变为扩大数据规模或者加深网络结构,这里不做详细介绍,但是qwen3有重大改进,这里放一下:

Qwen3 (2025.05)

  • 架构层面重大创新,引入:

    •  思维模式(Thinking Mode)非思维模式 的统一框架(动态推理路径选择)

    •  思维预算机制(Thinking Budget):控制推理成本 vs 精度的平衡。

  • 模型规模拓展至:

    • 密集模型(最大达 235B)

    • MoE 混合专家模型(可按需激活)

  • 多语言支持扩展至 119 种语言/方言

  • 更强的任务自适应能力(例如多轮复杂任务、规划与代理任务)

二、ChatGLM 系列(智谱 AI)

1. 基本用途
  • 核心任务:中文对话、问答与生成

  • 典型应用

    • 多轮中文对话机器人

    • 文档检索与智能摘要

    • 行业问答(金融、医疗等领域)

2. 工作原理流程
  1. 输入表示

    • 基于 WordPiece 的 sub-word 分词,词表大小 ~30K;

    • 双向+自回归混合嵌入:既有全句双向上下文编码,也支持自回归生成模式。

  2. 双向+自回归混合 Transformer

    • 双向编码阶段

      • 类似 BERT 的多头自注意力,所有 token 间互相可见,用于理解输入;

    • 自回归解码阶段

      • 在生成时对已生成部分使用左侧掩码注意力,保证自回归特性;

    • 每层包含双向 Attention 输出与自回归 Attention 输出融合,再经 FFN 提炼。

  3. 预训练与微调

    • 先在大规模中文通用语料上预训练掩码 LM 与自回归 LM 混合目标;

    • 再在多轮对话数据上微调,并加入安全策略过滤违规内容。

  4. 推理生成

    • 历史管理:保留对话历史 token,动态扩展输入;

    • Tokenize → 编码 → 解码:先双向理解,再自回归生成;

    • 缓存与融合:双向上下文无需重复,缓存 KV;生成时只更新自回归部分;

    • 后处理:内置敏感词库与规则过滤,保证输出合规。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained(
    "THUDM/chatglm-6b",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
).eval()

response, _ = model.chat(tokenizer, "什么是机器过拟合?", history=[])
print(response)

三、文心 ERNIE 系列(百度)

1. 基本用途
  • 核心任务:知识增强的预训练与生成

  • 典型应用

    • 智能问答与对话

    • 文本摘要、翻译

    • 检索增强生成(RAG)

2. 工作原理流程
  1. 知识增强预训练

    • 在通用语料上预训练 Masked LM,同时引入实体关系图谱作为额外输入;

    • 对知识三元组进行编码,通过专门的知识注意力层融合到文本表示。

  2. 多任务混合

    • 包含 Masked LM、Sentence Order Prediction、知识三元组预测等多种目标;

    • 训练时多任务交替,模型学习到更丰富的语义与世界知识。

  3. 微调与下游适配

    • 对问答、对话、摘要等任务分别添加专用头;

    • 支持 RAG:检索器检索相关文档,生成器在预训练知识+检索知识基础上生成答案。

  4. 推理流程

    • Tokenize + 实体标注:输入文本先做 NER 和实体链接;

    • Embedding → 知识注意力 → 文本注意力:先融合知识向量,再与文本互 Attention;

    • 输出生成或分类:根据任务类型输出;自动过滤与重写不良内容。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_name = "baidu/ernie-3.0-titan-zh"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to("cuda")

input_text = "请用中文总结一下人工智能的发展历程。"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
out = model.generate(**inputs, max_length=256)
print(tokenizer.decode(out[0], skip_special_tokens=True))

四、通义千问(Alibaba Tongyi Qianwen)

1. 基本用途
  • 核心任务:多模态问答、对话与文档理解

  • 典型应用

    • 企业智能客服

    • 智能文档问答与信息抽取

    • 图文交互式应用

2. 工作原理流程
  1. 大规模混合预训练

    • 文本与图像对齐任务:同时在文本语料和图文对上预训练;

    • 文本部分自回归建模,图像部分采用 ViT 编码器。

  2. 跨模态融合层

    • 在 Transformer 解码器中,交替计算文本→文本、文本→图像、图像→文本注意力;

    • 多模态 Token 在同一序列内并行处理,实现深度融合。

  3. 指令与对话微调

    • 构建混合文本、图像的指令数据集,模型学习按格式生成图文混合回答;

    • 多轮对话数据上微调,引入角色标签和上下文管理。

  4. 推理与部署

    • Prompt Formatting:文本 + Base64 图像并行输入;

    • Tokenize & Visual Embed:并行生成嵌入向量序列;

    • 融合解码:自回归生成多模态回答;

    • 安全过滤:文本和图像内容分步审核。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "alibaba/tongyi-qianwen-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "帮我分析这段销售报告的核心结论。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
res = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(res[0], skip_special_tokens=True))

五、星火系列(iFLYTEK Spark)

1. 基本用途
  • 核心任务:行业定制化对话与知识问答

  • 典型应用

    • 医疗、金融、教育等领域专用 AI 助手

    • 长文档自动摘要与分析

    • 智能写作与代码生成

2. 工作原理流程
  1. 领域语料预处理

    • 汇集行业白皮书、专业文档与常见问答对;

    • 特定领域术语词表扩充,保证专有名词拆分准确。

  2. 自回归 + 指令微调

    • 先在通用语料上预训练,再在行业语料和指令数据上微调;

    • 引入示例驱动(few-shot prompt)策略,提升专业问答准确性。

  3. 混合注意力优化

    • 增加对长文本的稀疏注意力模式,支持上万 token 长文处理;

    • 使用 FlashAttention 与 KV 缓存提升推理速度。

  4. 推理与安全

    • Prompt formatting:支持多段式输入,按业务场景拼接;

    • 后处理:行业知识库检索结合生成结果校验,剔除不准确内容。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("iFLYTEK/spark-7b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "iFLYTEK/spark-7b",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "请简述区块链的工作原理及其在金融领域的应用。"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=200, top_p=0.9)
print(tokenizer.decode(gen[0], skip_special_tokens=True))

六、盘古系列(Huawei Pangu)

1. 基本用途
  • 核心任务:通用文本理解与生成,多语种支持

  • 典型应用

    • 智能客服与知识问答

    • 文本生成、翻译、摘要

    • 企业级 API 服务

2. 工作原理流程
  1. 大规模中文与多语种预处理

    • 汇聚中文网页、新闻、百科与多语种平行语料;

    • 多语种均衡采样,Vocabulary 包含常用中英子词。

  2. 自回归解码器架构

    • 多层 Masked Self-Attention + FFN;

    • 支持最大 16K Token 上下文,处理超长文档。

  3. 预训练优化

    • 使用混合精度、梯度累积、分布式并行(Model/Data Parallel);

    • 动态批次长度与序列打包,提升 GPU 利用率。

  4. API 服务与安全

    • 提供华为云 Pangu API,隐藏模型实现细节;

    • 内置内容安全策略,支持企业关键词黑白名单定制化。

3. 完整代码示例

盘古模型主要通过华为云 API 调用,示例:

import requests, json

api_url = "https://pangu-api.huaweicloud.com/v1/chat/completions"
headers = {"Authorization": "Bearer YOUR_TOKEN", "Content-Type": "application/json"}
data = {
  "model": "pangu-alpha-1.0",
  "messages": [
    {"role": "user", "content": "请解释下深度学习中的梯度消失问题。"}
  ]
}
res = requests.post(api_url, headers=headers, data=json.dumps(data))
print(res.json()["choices"][0]["message"]["content"])

 七、DeepSeek系列

1. DeepSeek-Coder 系列

(Code Intelligence 子系列,8 个模型:4 个 Base + 4 个 Instruct,16K context)

1. 基本用途
  • 核心任务:编程语言理解与生成、代码补全、代码审查

  • 典型应用

    • IDE 内联代码提示

    • 自动化单元测试生成

    • 复杂多步骤脚本编写

2. 工作原理流程(更详细)
  1. 预训练阶段(Pretraining)

    • 语料构成:共 1.8T tokens,87% 为源代码,10% 为代码相关英文(GitHub Markdown、StackExchange),3% 为中文自然语言;

    • 目标:自回归语言建模,学习代码语法、API 使用模式。

  2. 长上下文预训练(Long-Context Training)

    • 额外语料:200B tokens,用于扩展 context window 从 4K 到 16K;

    • 效果:Base 模型具备长代码文件补全与跨函数依赖建模能力。

  3. 指令微调(Supervised Finetuning, SFT)

    • 数据集:2B tokens 的人类编写指令-回应对(包括代码生成、注释、重构示例);

    • 目标:生成符合开发者意图的可执行代码,并附带必要注释。

  4. 模型规模与架构

    • 层数从 24 → 62,隐藏维度从 2048 → 7168,注意力头数 16–56 不等;

    • 使用标准解码器-only Transformer(RoPE + RMSNorm + SwiGLU)。

  5. 推理与部署

    • Prompt Formatting:以自然语言指令或已有代码片段为上下文;

    • 缓存 KVFlashAttention 等优化,保证 16K token 下高效推理;

    • 支持 HuggingFace Transformers、ONNX、自研 C++ 服务。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-Coder-5.7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "# 写一个函数,实现两个数相加\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=100, temperature=0.2)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
2. DeepSeek-LLM 系列

(通用文本生成 7B & 67B,Base + Chat 形式)

1. 基本用途
  • 核心任务:通用语言理解与生成、少样本/零样本任务

  • 典型应用

    • 多轮对话助手

    • 文本摘要、翻译

    • 问答与知识检索

2. 工作原理流程(更详细)
  1. 基础预训练

    • 语料:2T tokens 中英文混合,来源于去重后的 CommonCrawl;

    • 架构:解码器-only Transformer,预归一化(Pre-Norm)设计,RMSNorm 归一化,SwiGLU 激活;

    • 注意力:RoPE 位置编码 + Grouped-Query Attention (GQA) 提升长序列效率。

  2. 微调流程

    • SFT(Supervised Finetuning):在示例驱动数据上做指令微调,生成更符合用户意图的回答;

    • DPO(Direct Policy Optimization):结合人类偏好数据,用策略梯度进一步优化生成质量。

  3. 模型细节

    • 7B 模型:30 层,隐藏 4,096,FFN 中间 11,008,32 头;

    • 67B 模型:95 层,隐藏 8,192,FFN 中间 22,016,64 头。

  4. 推理与优化

    • KV 缓存:自回归过程中缓存所有层键值对;

    • FlashAttention:降低显存,占用;

    • 并行部署:支持 tensor parallel + pipeline parallel。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-LLM-7B-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float16, 
    device_map="auto",
    trust_remote_code=True
)

prompt = "User: 请问机器学习中的正则化有什么作用?\nAssistant:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=150, top_p=0.9, temperature=0.7)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
3. DeepSeek-R1

(高阶推理与数学/代码竞赛专用)

1. 基本用途
  • 核心任务:逻辑推理、数学题解答、编程考试辅助

  • 典型应用

    • 数学竞赛题(AIME、MATH)解题

    • 复杂编程题自动解答

    • 实时推理助手

2. 工作原理流程(更详细)
  1. 基础预训练

    • 基于 DeepSeek-V3-Base(MoE 架构)训练,继承大规模通用能力;

  2. 监督微调(SFT)

    • 在逻辑推理、数学题库、算法题目数据上做有标签微调;

  3. 模型蒸馏(Distillation)

    • R1-Distill:从大模型向轻量模型蒸馏生成策略,保证推理速度;

  4. 强化学习(RL)

    • R1-Zero:仅用基于规则的奖励(准确性 + 格式)通过 GRPO 强化训练;

    • R1:在 R1-Zero 基础上补充人类质量反馈,提升可读性与多语言一致性;

  5. 推理与部署

    • Prompt Formatting:题目 + 限制格式(如回答内需包含解题思路标签);

    • KV 缓存 + 并行:确保长推理链路高效;

    • 后处理:答案校验、格式化输出。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-R1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.float16, 
    device_map="auto"
)

prompt = "Solve: 若x^2 - 5x + 6 = 0,求x的值,并给出解题思路。\nAnswer:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=100, temperature=0.0)
print(tokenizer.decode(gen[0], skip_special_tokens=True))
4. DeepSeek-V3

(下一代 MoE 大模型,671B 参数,37B 激活)

1. 基本用途
  • 核心任务:高效大规模语言建模、推理与多任务能力

  • 典型应用

    • 多领域问答与文本生成

    • 强化学习与大规模推理系统

    • 科研级别逻辑推理

2. 工作原理流程(更详细)
  1. Mixture-of-Experts 架构

    • 全局参数:671B 总参数量;

    • 激活子网:每 token 仅激活 37B 参数,基于 DeepSeekMoE 路由器分配;

  2. Multi-head Latent Attention (MLA)

    • 在专家路由前加入潜在注意力层,分配 token 到不同专家组;

  3. 无辅助损失策略

    • 摒弃传统 MoE load-balancing 辅助损失,使用多 token 预测目标稳定路由分布;

  4. 高效训练

    • Megatron-DeepSpeed 混合并行,FP16 + 动态损失缩放,梯度累积;

  5. 推理与优化

    • 专家路由加速:仅激活部分专家,减少计算;

    • FlashAttention + KV 缓存:支持超大 context 高速生成;

    • 动态批次:多 prompt 拼接,提高 GPU 利用率。

3. 完整代码示例
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name = "deepseek-ai/DeepSeek-V3"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

prompt = "Explain the significance of the Fourier transform in signal processing."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
gen = model.generate(**inputs, max_new_tokens=150, top_p=0.9)
print(tokenizer.decode(gen[0], skip_special_tokens=True))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值