Datawhale AI 夏令营 Task01学习笔记-CSDN博客

本文链接：https://blog.csdn.net/m0_54954332/article/details/141112253

大模型的核心目标是建模人类语言的内在规律，通过语言模型准确预测词序列中的下一个词或缺失的词。语言模型的发展经历了四个阶段：

统计语言模型（SLM）：使用马尔可夫假设进行建模，基于 ( n )-gram 语言模型。
神经语言模型（NLM）：基于神经网络，如循环神经网络（RNN），学习上下文相关的词表示，代表性工作包括 word2vec。
预训练语言模型（PLM）：通过大量无标注数据预训练双向 LSTM（biLSTM）或 Transformer，并在下游任务上进行微调，代表性模型包括 ELMo、BERT 和 GPT-1/2。
大语言模型（LLM）：基于“扩展法则”，通过增加模型参数或训练数据来提升性能，具有涌现能力。代表性模型包括 GPT-3、ChatGPT、Claude 和 Llama。

预训练（Pretraining）
- 目标：使用海量数据为模型参数提供优质的初始值。
- 过程：从计算机视觉领域借鉴，最初应用于 word2vec、ELMo、BERT 和 GPT 系列。预训练技术专注于建立坚实的模型基础，处理大规模文本数据，数据质量和多样性对模型性能至关重要。
- 需求：大量数据和计算资源，如 Llama-1、Llama-2 和 Llama-3 的预训练规模分别为 1T、2T 和 15T。训练过程包括数据配比、学习率调度、模型行为监测等，要求高效的资源使用和故障排查能力。
有监督微调（Supervised Fine-Tuning, SFT）
- 目标：提升模型在特定任务中的表现。
- 方法：利用成对的任务输入与预期输出数据训练模型，以问答形式解答问题，激活模型的任务解决能力。微调所需数据量较少，从数千到上百万条数据均可有效微调模型。
- 效果：提升模型的指令遵循能力，解决具体任务。
基于人类反馈的强化学习对齐（Reinforcement Learning from Human Feedback, RLHF）
- 目标：使大语言模型与人类的期望、需求及价值观对齐。
- 方法：通过强化学习构建奖励模型，基于专家对模型输出的偏好排序训练奖励模型，以提高模型的人类对齐度。还有不使用强化学习的对齐方法，如直接偏好优化（DPO），通过较简单的复杂度实现类似效果。

开源大模型：

闭源大模型：

Prompt工程：
- 上下文学习（ICL）：将任务说明及示例融入提示文本，无需额外训练即可完成新任务学习。
- 思维链提示（CoT）：引入逻辑推理链条，增强模型处理复杂问题的能力。
Embedding辅助：
- 将知识转成Embedding向量存入知识库，通过检索增强大模型的知识和减少模型幻觉。
参数高效微调：
- 目标：提升模型在特定任务上的能力，减少计算资源消耗。
- 方法：训练极少的模型参数，通过高效微调实现与全量微调相似的效果。