简述LLM的底层原理和演变

最新推荐文章于 2024-08-08 09:38:50 发布

beidaomitu233

最新推荐文章于 2024-08-08 09:38:50 发布

阅读量356

点赞数 1

分类专栏： LLM 文章标签：人工智能文心一言 chatgpt 语言模型知识图谱自然语言处理机器学习

原文链接：https://www.bilibili.com/video/BV1Ba4y1U7j3/?share_source=copy_web&vd_source=d9006cd4134180936b93f1bf749642db%E2%80%8B

版权

LLM 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文是学习视频所做的笔记，仅作为学习笔记使用。

【动画科普LLM大模型进阶之路：为何GPT之外一定要关注LLaMA】 :https://www.bilibili.com/video/BV1Ba4y1U7j3/?share_source=copy_web&vd_source=d9006cd4134180936b93f1bf749642db

LLM: Large Language Model 大语言模型

来自GPT的解释：

LLM涌现出的3大能力

In-context learning：在GPT-3中正式被提出。在不需要重新训练的情况下，通过自然语言指令，并带几个期望输出的样例，LLM就能够学习到这种输入输出关系，新的指令输入后，就能输出期望的输出。
Instruction following：通过在多种任务数据集上进行指令微调（instruction tuning），LLM可以在没有见过的任务上，通过指令的形式表现良好，因此具有较好的泛化能力。
Step-by-step reasoning：通过思维链（chain-of-thought）提示策略，即把大任务分解成一步一步小任务，让模型think step by step得到最终答案。

LLM的关键技术

Scaling：更多的模型参数、数据量和训练计算，可以有效提升模型效果。
Training：分布式训练策略及一些提升训练稳定性和效果的优化trick。另外还有GPT-4也提出去建立一些特殊的工程设施通过小模型的表现去预测大模型的表现（predictable scaling）。
Ability eliciting：能力引导。设计合适的任务指令或具体的上下文学习策略可以激发LLM在庞大预料上学习到的能力。
Alignment tuning：对齐微调。为了避免模型输出一些不安全或者不符合人类正向价值观的回复，InstructGPT利用RLHF（reinforcement learning with human feedback）技术实现这一目的。
Tools manipulation：工具操作。为了弥补模型不擅长非文本输出任务和实时信息缺失的问题，让模型可以使用计算器、搜索引擎或者给模型安装插件等工具

大模型的演进历程和训练方式

这篇文章介绍了大模型的演进历程，包括不同模型之间的差异和训练方式的不同。从只用解码器的模型到采用完形填空模式的模型，分析了两种训练方式的优缺点。同时介绍了几个重要的模型和它们的发展里程碑，以及大模型训练的流程图。

大模型发展

大模型的四个步骤：预训练、监督式微调、奖励建模和强化学习。
- 预训练阶段需要大量算力，但可以节约成本。
- 后面三个阶段需要人工参与，并且所需的数据和资源庞大。
- LLAMA是其中的典型，通过改进解码器架构和使用特定的激活函数提升了训练稳定性和非线性表征能力。
- 强化学习是最后一步，通过训练二元分类器和强化学习算法，进一步微调模型。

大模型进化树图

大语言模型（LLM）的进化树，学习LLM看明白这一张图就够了

万物起源 transformer

一切的起源其实都来自于transformer模型

Transformer模型是一种基于自注意力机制的深度学习模型，主要用于自然语言处理（NLP）与计算机视觉（CV）领域。

Transformer模型的核心是自注意力机制，它可以让模型同时处理输入序列中的所有元素，并根据它们之间的关系计算出每个元素的重要性。这与传统的循环神经网络（RNN）不同，RNN只能顺序处理输入序列中的元素。

Transformer模型组成

Transformer模型的结构主要由编码器和解码器组成。

编码器负责将输入序列转换为一个表示
解码器负责根据表示生成输出序列。
可以将编码器和解码器进行分解使用

Transformer模型的一些优点：

可以同时处理输入序列中的所有元素，这可以提高模型的效率和准确性。
可以学习到输入序列的长距离依赖关系，这对于NLP和CV任务非常重要。
可以进行自监督学习，这可以减少对标注数据的需求。

以下是Transformer模型的一些缺点：

模型的参数量较大，这需要大量的计算资源。
模型的训练时间较长。

上层模型开发派系

基于transformer的解码器或者编码器可以单独开发上层模型。

基于encoder编码器

编码器负责将输入序列转换为一个表示。

基于encoder开发的大模型，以BERT为代表的派系（文心模型）

BERT派只用encoder，像个善于分析故事的专家，输入一段文本能给你拆解的头头是道，因为本质上它是把高位数据压缩到低维空间。

基于decoder解码器

基于decoder解码器开发的模型，以GPT LLAMA为代表

GPT派只用decoder，它像是一个会讲故事的专家，给点提示就能流畅的接着自说自话。

基于encoder和decoder结合

解码器负责根据表示生成输出序列。

基于encoder和decoder结合，以T5和GLM为代表。

ChatGPT：简单的decoder效果反倒更好？

从根本上分析，在于他们的训练方式不同。只用解码器的模型采用的是所谓自回归训练，就是给定一个序列模型预测之后可能出现的不同单词。

预测一连串的内容

这个过程就像是扔骰子一样，每个词都有自己的概率，从中选择概率最大的输出，这样不断迭代就能够输出完整的句子。
某种程度上说，他学习的是词与词之间的造句关系。搜索空间相对较小学起来更容易。整个训练过程就像是一个人自己在不断的练习，逐渐提高讲故事的能力。

BERT训练方式：双向模式

训练方式则不同，采用的是完形填空模式，给定一个句子，随机掩盖掉一些词，然后让模型预测是什么，训练过程要同时考虑上下文。

这种瞻前顾后式的双向模式显然比单向的搜索空间更大，因为它需要在整个词汇表中找最合适的词来填充每个空。学起来也会更难。

预训练时：

这就能完美解释为什么只用解码器的这条线在过去五年中发展最快了，光典型模型就出现了三十多个。当然全了解它们也没有必要抓住最关键的几个就能把主要的脉络搞清楚。主要演变历程是GPT2 Gopher LLAMA等模型

模型开发新思路

相比于OpenAI的GPT2，谷歌的搞法验证了通过扩大模型规模有效处理复杂任务的可行性。

谷歌的Gopher验证了通过扩大模型规模有效处理复杂任务的可行性

Chinchilla模型则证明了增加数据比增加模型参数更加的有效。

LLAMA系列厉害之处在于用不到10分之1的参数便实现了堪比GPT系列模型的性能，成为当下最流行的开源大模型

大模型训练流程图

预训练

预训练是整个训练中最耗费资源的一部，占比达到99%。

而LLAMA的开源，就是帮大家节省了第一步与训练的成本。

监督式微调

奖励建模

强化学习

#AI应用 #AIGC应用#AIGC资讯#LLM大语言模型

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

beidaomitu233 CSDN认证博客专家 CSDN认证企业博客

码龄3年

0: 原创

175万+: 周排名

186万+: 总排名

1534: 访问

: 等级

9: 积分

0: 粉丝

4: 获赞

3: 评论

9: 收藏

私信

关注

热门文章

分类专栏

LLM 2篇

最新评论

AIGC基础通识讲解——图解，小白向
2401_84384077: 可否给个笔记文档
AIGC基础通识讲解——图解，小白向
CSDN-Ada助手: 这篇博客内容清晰易懂，对于初学者来说非常友好，希望作者能够继续分享更多相关知识。除了图解生成式AI的基础通识，或许可以进一步探讨生成式AI在实际应用中的案例，以及如何优化模型训练效率等方面的内容。期待看到更多精彩的分享！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

AIGC基础通识讲解——图解，小白向

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。