yuan大模型开发学习 day0

### 笔记:大模型的背景知识与构建过程

#### 一、大模型概述

**大模型**的核心目标是建模人类语言的内在规律,通过语言模型准确预测词序列中的下一个词或缺失的词。语言模型的发展经历了四个阶段:

1. **统计语言模型(SLM)**:使用马尔可夫假设进行建模,基于 \( n \)-gram 语言模型。
2. **神经语言模型(NLM)**:基于神经网络,如循环神经网络(RNN),学习上下文相关的词表示,代表性工作包括 word2vec。
3. **预训练语言模型(PLM)**:通过大量无标注数据预训练双向 LSTM(biLSTM)或 Transformer,并在下游任务上进行微调,代表性模型包括 ELMo、BERT 和 GPT-1/2。
4. **大语言模型(LLM)**:基于“扩展法则”,通过增加模型参数或训练数据来提升性能,具有涌现能力。代表性模型包括 GPT-3、ChatGPT、Claude 和 Llama。

#### 二、大模型的构建过程

1. **预训练(Pretraining)**
   - **目标**:使用海量数据为模型参数提供优质的初始值。
   - **过程**:从计算机视觉领域借鉴,最初应用于 word2vec、ELMo、BERT 和 GPT 系列。预训练技术专注于建立坚实的模型基础,处理大规模文本数据,数据质量和多样性对模型性能至关重要。
   - **需求**:大量数据和计算资源,如 Llama-1、Llama-2 和 Llama-3 的预训练规模分别为 1T、2T 和 15T。训练过程包括数据配比、学习率调度、模型行为监测等,要求高效的资源使用和故障排查能力。

2. **有监督微调(Supervised Fine-Tuning, SFT)**
   - **目标**:提升模型在特定任务中的表现。
   - **方法**:利用成对的任务输入与预期输出数据训练模型,以问答形式解答问题,激活模型的任务解决能力。微调所需数据量较少,从数千到上百万条数据均可有效微调模型。
   - **效果**:提升模型的指令遵循能力,解决具体任务。

3. **基于人类反馈的强化学习对齐(Reinforcement Learning from Human Feedback, RLHF)**
   - **目标**:使大语言模型与人类的期望、需求及价值观对齐。
   - **方法**:通过强化学习构建奖励模型,基于专家对模型输出的偏好排序训练奖励模型,以提高模型的人类对齐度。还有不使用强化学习的对齐方法,如直接偏好优化(DPO),通过较简单的复杂度实现类似效果。

#### 三、开源大模型与闭源大模型

**开源大模型**:
- 促进学术交流和技术创新,让全球研究者和开发者受益,代表如 Meta AI 和浪潮信息。

**闭源大模型**:
- 作为核心竞争力提供专有服务,保障商业利益,代表如 OpenAI 和百度。

#### 四、源大模型开源体系

- **源1.0**(2021年9月):Transformer Decoder结构,2457亿参数,数据训练规模5T。详细链接:
  - [项目链接](https://github.com/Shawn-IEITSystems/Yuan-1.0)
  - [官方报道](https://mp.weixin.qq.com/s/6CH0I4eOLzj3YDZyIxdeEQ)
  - [论文链接](https://arxiv.org/abs/2110.04725)

- **源2.0**(2023年11月):包括1026亿、518亿、21亿参数规模,数据训练规模10T。引入局部注意力过滤增强机制(LFA)。详细链接:
  - [项目链接](https://github.com/IEIT-Yuan/Yuan-2.0)
  - [官方报道](https://mp.weixin.qq.com/s/rjnsUS83TT7aEN3r2i0IPQ)
  - [论文链接](https://arxiv.org/abs/2311.15786)

- **源2.0-M32**(2024年5月):混合专家(MoE)大模型,包含32个专家,训练数据2000B Tokens。详细链接:
  - [项目链接](https://github.com/IEIT-Yuan/Yuan2.0-M32)
  - [官方报道](https://mp.weixin.qq.com/s/WEVyYq9BkTTlO6EAfiCf6w)
  - [论文链接](https://arxiv.org/abs/2405.17976)

#### 五、大模型时代的开发范式

1. **Prompt工程**:
   - **上下文学习(ICL)**:将任务说明及示例融入提示文本,无需额外训练即可完成新任务学习。
   - **思维链提示(CoT)**:引入逻辑推理链条,增强模型处理复杂问题的能力。

2. **Embedding辅助**:
   - 将知识转成Embedding向量存入知识库,通过检索增强大模型的知识和减少模型幻觉。

3. **参数高效微调**:
   - **目标**:提升模型在特定任务上的能力,减少计算资源消耗。
   - **方法**:训练极少的模型参数,通过高效微调实现与全量微调相似的效果。

这些技术和策略展现了大模型应用开发的丰富可能性,并推动了人工智能技术的广泛应用和持续进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值