Datawhale AI 夏令营 Task01学习笔记

笔记:大模型的背景知识与构建过程

一、大模型概述

大模型的核心目标是建模人类语言的内在规律,通过语言模型准确预测词序列中的下一个词或缺失的词。语言模型的发展经历了四个阶段:

  1. 统计语言模型(SLM):使用马尔可夫假设进行建模,基于 ( n )-gram 语言模型。
  2. 神经语言模型(NLM):基于神经网络,如循环神经网络(RNN),学习上下文相关的词表示,代表性工作包括 word2vec。
  3. 预训练语言模型(PLM):通过大量无标注数据预训练双向 LSTM(biLSTM)或 Transformer,并在下游任务上进行微调,代表性模型包括 ELMo、BERT 和 GPT-1/2。
  4. 大语言模型(LLM):基于“扩展法则”,通过增加模型参数或训练数据来提升性能,具有涌现能力。代表性模型包括 GPT-3、ChatGPT、Claude 和 Llama。
二、大模型的构建过程
  1. 预训练(Pretraining)

    • 目标:使用海量数据为模型参数提供优质的初始值。
    • 过程:从计算机视觉领域借鉴,最初应用于 word2vec、ELMo、BERT 和 GPT 系列。预训练技术专注于建立坚实的模型基础,处理大规模文本数据,数据质量和多样性对模型性能至关重要。
    • 需求:大量数据和计算资源,如 Llama-1、Llama-2 和 Llama-3 的预训练规模分别为 1T、2T 和 15T。训练过程包括数据配比、学习率调度、模型行为监测等,要求高效的资源使用和故障排查能力。
  2. 有监督微调(Supervised Fine-Tuning, SFT)

    • 目标:提升模型在特定任务中的表现。
    • 方法:利用成对的任务输入与预期输出数据训练模型,以问答形式解答问题,激活模型的任务解决能力。微调所需数据量较少,从数千到上百万条数据均可有效微调模型。
    • 效果:提升模型的指令遵循能力,解决具体任务。
  3. 基于人类反馈的强化学习对齐(Reinforcement Learning from Human Feedback, RLHF)

    • 目标:使大语言模型与人类的期望、需求及价值观对齐。
    • 方法:通过强化学习构建奖励模型,基于专家对模型输出的偏好排序训练奖励模型,以提高模型的人类对齐度。还有不使用强化学习的对齐方法,如直接偏好优化(DPO),通过较简单的复杂度实现类似效果。
三、开源大模型与闭源大模型

开源大模型

  • 促进学术交流和技术创新,让全球研究者和开发者受益,代表如 Meta AI 和浪潮信息。

闭源大模型

  • 作为核心竞争力提供专有服务,保障商业利益,代表如 OpenAI 和百度。
四、源大模型开源体系
五、大模型时代的开发范式
  1. Prompt工程

    • 上下文学习(ICL):将任务说明及示例融入提示文本,无需额外训练即可完成新任务学习。
    • 思维链提示(CoT):引入逻辑推理链条,增强模型处理复杂问题的能力。
  2. Embedding辅助

    • 将知识转成Embedding向量存入知识库,通过检索增强大模型的知识和减少模型幻觉。
  3. 参数高效微调

    • 目标:提升模型在特定任务上的能力,减少计算资源消耗。
    • 方法:训练极少的模型参数,通过高效微调实现与全量微调相似的效果。
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值