笔记:大模型的背景知识与构建过程
一、大模型概述
大模型的核心目标是建模人类语言的内在规律,通过语言模型准确预测词序列中的下一个词或缺失的词。语言模型的发展经历了四个阶段:
- 统计语言模型(SLM):使用马尔可夫假设进行建模,基于 ( n )-gram 语言模型。
- 神经语言模型(NLM):基于神经网络,如循环神经网络(RNN),学习上下文相关的词表示,代表性工作包括 word2vec。
- 预训练语言模型(PLM):通过大量无标注数据预训练双向 LSTM(biLSTM)或 Transformer,并在下游任务上进行微调,代表性模型包括 ELMo、BERT 和 GPT-1/2。
- 大语言模型(LLM):基于“扩展法则”,通过增加模型参数或训练数据来提升性能,具有涌现能力。代表性模型包括 GPT-3、ChatGPT、Claude 和 Llama。
二、大模型的构建过程
-
预训练(Pretraining)
- 目标:使用海量数据为模型参数提供优质的初始值。
- 过程:从计算机视觉领域借鉴,最初应用于 word2vec、ELMo、BERT 和 GPT 系列。预训练技术专注于建立坚实的模型基础,处理大规模文本数据,数据质量和多样性对模型性能至关重要。
- 需求:大量数据和计算资源,如 Llama-1、Llama-2 和 Llama-3 的预训练规模分别为 1T、2T 和 15T。训练过程包括数据配比、学习率调度、模型行为监测等,要求高效的资源使用和故障排查能力。
-
有监督微调(Supervised Fine-Tuning, SFT)
- 目标:提升模型在特定任务中的表现。
- 方法:利用成对的任务输入与预期输出数据训练模型,以问答形式解答问题,激活模型的任务解决能力。微调所需数据量较少,从数千到上百万条数据均可有效微调模型。
- 效果:提升模型的指令遵循能力,解决具体任务。
-
基于人类反馈的强化学习对齐(Reinforcement Learning from Human Feedback, RLHF)
- 目标:使大语言模型与人类的期望、需求及价值观对齐。
- 方法:通过强化学习构建奖励模型,基于专家对模型输出的偏好排序训练奖励模型,以提高模型的人类对齐度。还有不使用强化学习的对齐方法,如直接偏好优化(DPO),通过较简单的复杂度实现类似效果。
三、开源大模型与闭源大模型
开源大模型:
- 促进学术交流和技术创新,让全球研究者和开发者受益,代表如 Meta AI 和浪潮信息。
闭源大模型:
- 作为核心竞争力提供专有服务,保障商业利益,代表如 OpenAI 和百度。
四、源大模型开源体系
-
源1.0(2021年9月):Transformer Decoder结构,2457亿参数,数据训练规模5T。详细链接:
-
源2.0(2023年11月):包括1026亿、518亿、21亿参数规模,数据训练规模10T。引入局部注意力过滤增强机制(LFA)。详细链接:
-
源2.0-M32(2024年5月):混合专家(MoE)大模型,包含32个专家,训练数据2000B Tokens。详细链接:
五、大模型时代的开发范式
-
Prompt工程:
- 上下文学习(ICL):将任务说明及示例融入提示文本,无需额外训练即可完成新任务学习。
- 思维链提示(CoT):引入逻辑推理链条,增强模型处理复杂问题的能力。
-
Embedding辅助:
- 将知识转成Embedding向量存入知识库,通过检索增强大模型的知识和减少模型幻觉。
-
参数高效微调:
- 目标:提升模型在特定任务上的能力,减少计算资源消耗。
- 方法:训练极少的模型参数,通过高效微调实现与全量微调相似的效果。