简述LLM的底层原理和演变

本文是学习视频所做的笔记,仅作为学习笔记使用。

【动画科普LLM大模型进阶之路:为何GPT之外一定要关注LLaMA】 :https://www.bilibili.com/video/BV1Ba4y1U7j3/?share_source=copy_web&vd_source=d9006cd4134180936b93f1bf749642db​

LLM: Large Language Model 大语言模型

来自GPT的解释:

LLM涌现出的3大能力

  • In-context learning:在GPT-3中正式被提出。在不需要重新训练的情况下,通过自然语言指令,并带几个期望输出的样例,LLM就能够学习到这种输入输出关系,新的指令输入后,就能输出期望的输出。

  • Instruction following:通过在多种任务数据集上进行指令微调(instruction tuning),LLM可以在没有见过的任务上,通过指令的形式表现良好,因此具有较好的泛化能力。

  • Step-by-step reasoning:通过思维链(chain-of-thought)提示策略,即把大任务分解成一步一步小任务,让模型think step by step得到最终答案。

LLM的关键技术

  • Scaling:更多的模型参数、数据量和训练计算,可以有效提升模型效果。

  • Training:分布式训练策略及一些提升训练稳定性和效果的优化trick。另外还有GPT-4也提出去建立一些特殊的工程设施通过小模型的表现去预测大模型的表现(predictable scaling)。

  • Ability eliciting:能力引导。设计合适的任务指令或具体的上下文学习策略可以激发LLM在庞大预料上学习到的能力。

  • Alignment tuning:对齐微调。为了避免模型输出一些不安全或者不符合人类正向价值观的回复,InstructGPT利用RLHF(reinforcement learning with human feedback)技术实现这一目的。

  • Tools manipulation:工具操作。为了弥补模型不擅长非文本输出任务和实时信息缺失的问题,让模型可以使用计算器、搜索引擎或者给模型安装插件等工具

  • 大模型的演进历程和训练方式

    这篇文章介绍了大模型的演进历程,包括不同模型之间的差异和训练方式的不同。从只用解码器的模型到采用完形填空模式的模型,分析了两种训练方式的优缺点。同时介绍了几个重要的模型和它们的发展里程碑,以及大模型训练的流程图。

  • 大模型发展

    大模型的四个步骤:预训练、监督式微调、奖励建模和强化学习。

    • 预训练阶段需要大量算力,但可以节约成本。

    • 后面三个阶段需要人工参与,并且所需的数据和资源庞大。

    • LLAMA是其中的典型,通过改进解码器架构和使用特定的激活函数提升了训练稳定性和非线性表征能力。

    • 强化学习是最后一步,通过训练二元分类器和强化学习算法,进一步微调模型。

大模型进化树图

​​

大语言模型(LLM)的进化树,学习LLM看明白这一张图就够了

万物起源 transformer

一切的起源其实都来自于transformer模型

Transformer模型是一种基于自注意力机制的深度学习模型,主要用于自然语言处理(NLP)与计算机视觉(CV)领域。

Transformer模型的核心是自注意力机制,它可以让模型同时处理输入序列中的所有元素,并根据它们之间的关系计算出每个元素的重要性。这与传统的循环神经网络(RNN)不同,RNN只能顺序处理输入序列中的元素。

Transformer模型组成

Transformer模型的结构主要由编码器和解码器组成。

  • 编码器负责将输入序列转换为一个表示

  • 解码器负责根据表示生成输出序列。

  • 可以将编码器和解码器进行分解使用

Transformer模型的一些优点:

  • 可以同时处理输入序列中的所有元素,这可以提高模型的效率和准确性。

  • 可以学习到输入序列的长距离依赖关系,这对于NLP和CV任务非常重要。

  • 可以进行自监督学习,这可以减少对标注数据的需求。

以下是Transformer模型的一些缺点:

  • 模型的参数量较大,这需要大量的计算资源。

  • 模型的训练时间较长。

上层模型开发派系

基于transformer的解码器或者编码器可以单独开发上层模型。

基于encoder编码器

编码器负责将输入序列转换为一个表示。

基于encoder开发的大模型,以BERT为代表的派系(文心模型)

  • BERT派只用encoder,像个善于分析故事的专家,输入一段文本能给你拆解的头头是道,因为本质上它是把高位数据压缩到低维空间。

​​

基于decoder解码器

基于decoder解码器开发的模型,以GPT LLAMA为代表

GPT派只用decoder,它像是一个会讲故事的专家,给点提示就能流畅的接着自说自话。

基于encoder和decoder结合

解码器负责根据表示生成输出序列。

基于encoder和decoder结合,以T5和GLM为代表。 

​​

ChatGPT:简单的decoder效果反倒更好?

从根本上分析,在于他们的训练方式不同。只用解码器的模型采用的是所谓自回归训练,就是给定一个序列模型预测之后可能出现的不同单词。

预测一连串的内容

  • 这个过程就像是扔骰子一样,每个词都有自己的概率,从中选择概率最大的输出,这样不断迭代就能够输出完整的句子。

  • 某种程度上说,他学习的是词与词之间的造句关系。搜索空间相对较小学起来更容易。整个训练过程就像是一个人自己在不断的练习,逐渐提高讲故事的能力。

​​

BERT训练方式:双向模式

训练方式则不同,采用的是完形填空模式,给定一个句子,随机掩盖掉一些词,然后让模型预测是什么,训练过程要同时考虑上下文。

这种瞻前顾后式的双向模式显然比单向的搜索空间更大,因为它需要在整个词汇表中找最合适的词来填充每个空。学起来也会更难。

预训练时:

​​

这就能完美解释为什么只用解码器的这条线在过去五年中发展最快了,光典型模型就出现了三十多个。当然全了解它们也没有必要抓住最关键的几个就能把主要的脉络搞清楚。主要演变历程是GPT2 Gopher LLAMA等模型

​​

模型开发新思路

相比于OpenAI的GPT2,谷歌的搞法验证了通过扩大模型规模有效处理复杂任务的可行性。

  • 谷歌的Gopher验证了通过扩大模型规模有效处理复杂任务的可行性

  • Chinchilla模型则证明了增加数据比增加模型参数更加的有效。

LLAMA系列厉害之处在于用不到10分之1的参数便实现了堪比GPT系列模型的性能,成为当下最流行的开源大模型

大模型训练流程图

  1. 预训练

预训练是整个训练中最耗费资源的一部,占比达到99%。

而LLAMA的开源,就是帮大家节省了第一步与训练的成本。

  1. 监督式微调

  1. 奖励建模

  1. 强化学习

 #AI应用  #AIGC应用#AIGC资讯#LLM大语言模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值