大模型核心术语简介

小马不会过河

于 2025-05-14 11:24:51 发布

阅读量785

点赞数 15

文章标签：数据结构人工智能机器学习深度学习 github

本文链接：https://blog.csdn.net/m0_59163425/article/details/147950166

版权

一、基础架构与训练

Transformer架构 - 基于自注意力机制的神经网络结构（2017年提出）
自注意力机制 (Self-Attention) - 计算序列内部元素关联度的核心模块
位置编码 (Positional Encoding) - 为输入序列添加位置信息的嵌入技术
Token（词元） - 文本处理的基本单元，通常1个token能表示一个英文单词或者1个汉字，不同大模型分词标准不一样，比如unhappiness会被分成3个token，高频词New York可能归为1个token
预训练 (Pre-training) - 在大规模无标注数据上的初始训练阶段
自监督学习 (Self-Supervised Learning) - 通过数据本身构造监督信号的训练范式

二、训练优化技术

1. 监督微调 (Supervised Fine-Tuning, SFT) - 使用标注数据进行的针对性优化
2. 强化学习 (Reinforcement Learning, RL) - 通过奖励机制优化模型行为
3.人类反馈强化学习 (RLHF) - 结合人类评价的强化学习方法
4. 知识蒸馏 (Knowledge Distillation) - 将大模型知识迁移到小模型的技术
5.参数高效微调 (PEFT) - LoRA等低资源微调方法*
6. 指令微调 (Instruction Tuning) - 增强模型遵循指令能力的训练

三、模型优化技术

1. 模型压缩 (Model Compression) - 降低模型部署成本的技术集合，先进方法可达原模型1/10体积（精度损失<3%）
2. 量化 (Quantization) - 降低模型参数精度（如FP32→INT8），当前前沿技术可实现4-bit量化（如QLoRA）
3. 剪枝 (Pruning) - 移除冗余神经元/权重的方法
4. 低秩适应 (LoRA) - 冻结原参数的低秩矩阵微调技术
5.稀疏化训练 (Sparse Training) - 动态保留重要连接的优化方式

四、核心技术要素

提示工程 (Prompt Engineering) - 通过输入设计优化输出的技术
思维链 (Chain-of-Thought) - 分步推理的提示方法
温度参数 (Temperature) - 控制生成随机性的超参数（0-1区间）
Top-p采样 (Nucleus Sampling) - 动态选择候选词的概率阈值
长上下文窗口 - 模型处理的Token上限（Gemini 1.5 Pro达100万）

五、模型架构演进

混合专家系统 (MoE) - 动态激活子网络的架构（如GPT-4）
多模态大模型 - 处理文本/图像/视频/音频的融合模型
递归增强 (Recurrent Inference) - 突破固定上下文限制的新范式
状态空间模型 (SSM) - 替代Transformer的潜在架构（如Mamba）

六、评估与对齐

困惑度 (Perplexity) - 语言模型预测能力评估指标
涌现能力 (Emergent Ability) - 模型参数突破阈值后突现的新能力（如逻辑推理）
幻觉率 (Hallucination Rate) - 生成内容与事实/逻辑不符的概率（关键风险指标）
人类对齐 (AI Alignment) - 确保模型符合人类价值观的技术
红队测试 (Red Teaming) - 系统性探测模型漏洞的方法
价值观校准 (Value Alignment) - 控制模型输出的伦理边界

七、应用层技术

1.检索增强生成 (RAG) - 结合外部知识库的生成技术
2. 智能体架构 (Agent Framework) - 具备记忆/规划能力的AI系统
3. 边缘计算部署 - 移动端模型优化技术（如手机端LLM）
4. 持续学习 (Continual Learning) - 增量更新知识不遗忘的能力

八、前沿研究方向

神经符号系统 - 结合符号推理与神经网络的架构
世界模型 (World Model) - 对物理规律的认知建模
具身智能 (Embodied AI) - 结合物理交互的智能体
能量模型 (Energy-Based Models) - 新一代生成式架构探索

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述