yuan大模型开发学习 day0-CSDN博客

本文链接：https://blog.csdn.net/m0_54954332/article/details/141112192

### 笔记：大模型的背景知识与构建过程

#### 一、大模型概述

**大模型**的核心目标是建模人类语言的内在规律，通过语言模型准确预测词序列中的下一个词或缺失的词。语言模型的发展经历了四个阶段：

1. **统计语言模型（SLM）**：使用马尔可夫假设进行建模，基于 \( n \)-gram 语言模型。
2. **神经语言模型（NLM）**：基于神经网络，如循环神经网络（RNN），学习上下文相关的词表示，代表性工作包括 word2vec。
3. **预训练语言模型（PLM）**：通过大量无标注数据预训练双向 LSTM（biLSTM）或 Transformer，并在下游任务上进行微调，代表性模型包括 ELMo、BERT 和 GPT-1/2。
4. **大语言模型（LLM）**：基于“扩展法则”，通过增加模型参数或训练数据来提升性能，具有涌现能力。代表性模型包括 GPT-3、ChatGPT、Claude 和 Llama。

#### 二、大模型的构建过程

1. **预训练（Pretraining）**
- **目标**：使用海量数据为模型参数提供优质的初始值。
- **过程**：从计算机视觉领域借鉴，最初应用于 word2vec、ELMo、BERT 和 GPT 系列。预训练技术专注于建立坚实的模型基础，处理大规模文本数据，数据质量和多样性对模型性能至关重要。
- **需求**：大量数据和计算资源，如 Llama-1、Llama-2 和 Llama-3 的预训练规模分别为 1T、2T 和 15T。训练过程包括数据配比、学习率调度、模型行为监测等，要求高效的资源使用和故障排查能力。

2. **有监督微调（Supervised Fine-Tuning, SFT）**
- **目标**：提升模型在特定任务中的表现。
- **方法**：利用成对的任务输入与预期输出数据训练模型，以问答形式解答问题，激活模型的任务解决能力。微调所需数据量较少，从数千到上百万条数据均可有效微调模型。
- **效果**：提升模型的指令遵循能力，解决具体任务。

3. **基于人类反馈的强化学习对齐（Reinforcement Learning from Human Feedback, RLHF）**
- **目标**：使大语言模型与人类的期望、需求及价值观对齐。
- **方法**：通过强化学习构建奖励模型，基于专家对模型输出的偏好排序训练奖励模型，以提高模型的人类对齐度。还有不使用强化学习的对齐方法，如直接偏好优化（DPO），通过较简单的复杂度实现类似效果。

#### 三、开源大模型与闭源大模型

**开源大模型**：
- 促进学术交流和技术创新，让全球研究者和开发者受益，代表如 Meta AI 和浪潮信息。

**闭源大模型**：
- 作为核心竞争力提供专有服务，保障商业利益，代表如 OpenAI 和百度。

#### 四、源大模型开源体系

- **源1.0**（2021年9月）：Transformer Decoder结构，2457亿参数，数据训练规模5T。详细链接：
- [项目链接](https://github.com/Shawn-IEITSystems/Yuan-1.0)
- [官方报道](https://mp.weixin.qq.com/s/6CH0I4eOLzj3YDZyIxdeEQ)
- [论文链接](https://arxiv.org/abs/2110.04725)

- **源2.0**（2023年11月）：包括1026亿、518亿、21亿参数规模，数据训练规模10T。引入局部注意力过滤增强机制（LFA）。详细链接：
- [项目链接](https://github.com/IEIT-Yuan/Yuan-2.0)
- [官方报道](https://mp.weixin.qq.com/s/rjnsUS83TT7aEN3r2i0IPQ)
- [论文链接](https://arxiv.org/abs/2311.15786)

- **源2.0-M32**（2024年5月）：混合专家（MoE）大模型，包含32个专家，训练数据2000B Tokens。详细链接：
- [项目链接](https://github.com/IEIT-Yuan/Yuan2.0-M32)
- [官方报道](https://mp.weixin.qq.com/s/WEVyYq9BkTTlO6EAfiCf6w)
- [论文链接](https://arxiv.org/abs/2405.17976)

#### 五、大模型时代的开发范式

1. **Prompt工程**：
- **上下文学习（ICL）**：将任务说明及示例融入提示文本，无需额外训练即可完成新任务学习。
- **思维链提示（CoT）**：引入逻辑推理链条，增强模型处理复杂问题的能力。

2. **Embedding辅助**：
- 将知识转成Embedding向量存入知识库，通过检索增强大模型的知识和减少模型幻觉。

3. **参数高效微调**：
- **目标**：提升模型在特定任务上的能力，减少计算资源消耗。
- **方法**：训练极少的模型参数，通过高效微调实现与全量微调相似的效果。

这些技术和策略展现了大模型应用开发的丰富可能性，并推动了人工智能技术的广泛应用和持续进步。