深度讲解AI大模型原理,它到底是如何工作的

前言

现在很多朋友都在研究AI大模型;

对各个公司的大模型更是数如家珍。

“chatgpt、Claude、Gemini、Llama3、文心一言、千问…”

国外的、国内的、开源的、不开源的;

只要出来一个大模型,就要注册,试一试效果。

但我想问的是:

你真正了解它们是如何工作的吗?

大家可以尝试回答下面这几个问题;

就能知道自己是不是真懂,什么是LLM大语言模型了。

例如:

“为什么基于生成式的模型,可以模拟出聊天对话的样子?”

“为什么大语言模型,可以生成不同的、非固定的对话回复?”

“生成式的AI大模型,依赖的是Transformer中的哪一部分?”

“几乎所有的大模型的最后一层都是softmax层,它的作用是什么?”

“如何快速的在笔记本电脑上,部署大语言模型进行实验?”

看完今天的文章,上面的问题都会迎刃而解!

最后希望能帮助大家:

真正理解AI大模型的工作原理。

具体来说,我会从三个方面进行讲解:

1)文本生成的原理,怎样基于文本生成模拟对话。

2)基于llama模型的结构,讲解大模型的推理过程。

3)基于openai的GPT2模型,进行推理实验。

1.文本生成的原理

你是否困惑过,无论向chatgpt输入什么样的问题,它都能准确的回复。

并且,chatgpt还能参考过去的对话内容,生成符合历史对话的新回复。

不仅如此,如果我们觉得chatgpt回复效果不够好;

还可以让它重新生成一个、不同于之前的回复。

这究竟是什么样的原理呢?

实际上,我们看似是与chatgpt进行问答式的沟通与对话交流;

但对于gpt来说,它做的事情,仍然是文本生成

也就是基于过去的数据,预测出下一个最有可能出现的单词。

下面我举两个例子,来说明这个问题。

1)到底什么是文本生成?

假如我们有一个AI大模型,比如GPT2。

此时我们向模型输入,“[cls]、今、天、天、气、真”,一共6个字(单词)。

我们希望模型基于这6个字,生成第7个字。

此时,模型会输出第7个字,是“的”字。

这里要需要特殊说明:

最开始的[cls],是一个特殊标记;

它用于标记句子的起始位置;

模型需要基于一些特殊的标记来进行计算。

现在不太理解也没关系,可以暂时忽略这个cls标记。

接着,我们要生成第8个字。

对于第8个字的生成,就会依赖初始输入的6个字,与刚刚生成的第7个“的”字。

基于这7个字,模型会继续生成“很”字。

接着,我们可以再基于这8个字,再向后生成一个字;

也就是第9个字,模型会输出“好”字。

以此类推,接着往后生成“,我们一行人去吃的,我们点了一个牛肉锅”。

总结来说:

文本生成,就是使用前面的字作为输入,生成新的字。

而到底要生成多少内容,取决于我们希望生成多少内容。

在这里插入图片描述

也就是,只要你愿意,大语言模型可以生成无穷无尽的文本。

2)chatgpt和文本生成又有什么关系?

chatgpt就是对话形式的文本生成。

假如此时,我们有一个经过对话数据微调的、中文GPT2大语言模型。

同样向这个模型输入“[cls]、今、天、天、气、真”,一共6个字。

这一次我们会发现,生成的下一个字是“好”;

然后是“[SEP]”;

接着是“是的,你最近怎么样[SEP]挺好的,你呢[SEP]”。

这又代表什么意思呢?

SEP分隔符

实际上,SEP就像一开始的[cls],是一种预定义的特殊字符;

SEP用于表示对话的分隔符。

我们可以将SEP看做是两个人对话的分隔标记。

模型专门输出这个特殊字符[SEP],来指示对话的结构。

例如,如果以SEP分割模型生成的文本,就会模拟出两个人的对话。

例如,我们可以将:

第1句“今天天气真好”看做是A说的;

第2句“是的,你最近怎么样”看做是B说的;

第3句“挺好的,你呢”,又是A说的;

第4句“我也是,还在上班”,又是B说的。

这样就得到了,对话形式的生成结果。

我们在使用模型的输出时,也就是chatgpt在展示结果的时候:

只需要展示、输出第1个SEP后与第2个SEP前的文本就可以了。

也就是说,chatgpt会回复:

“是的,你最近怎么样”,这样就可以了。

这之后的输出,对于此时的对话是没有意义的。

当看到SEP后,就代表了本次的回复结束了。

综合上面这两个例子:

我们就会发现:

chatgpt的本质,就是文本生成

模型本身,并没有试图去理解对话本身的意义。

chatgpt仅仅是通过文本生成,模拟出对话的效果而已。

所以,大家会不会觉得:

AI大模型也不过如此呢?

2.如何推理计算出下一个字

如何基于已有的文本,计算出下一个字呢?

也就是:

到底如何基于“[cls]、今、天、天、气、真、”;

计算出下一个单词是“的”;

再下一个字是“很”;

再下一个是“好”呢?

下面我基于llama3模型,来说明这个问题。

简单介绍Llama3,它是Meta的开源AI大模型;

效果先放一边,最关键的是它的资料非常全面;

对于学习者来说,是难得的学习资源。

Llama3基于Transformer架构。

如果真想搞懂llama,

肯定需要先理解Transformer。

下面我会基于Transformer和llama的模型结构图;

来解释大语言模型的推理过程

大家即使看着似懂非懂也没关系,关键是感受一下大模型是如何工作的。

下面进入正题!

1)模型的结构:

左图是Transformer结构图,右图是llama结构图。

Transformer中的左侧结构是编码器,右侧是解码器。

对比观察这两个结构图可以看到,llama模型借鉴了Transformer的解码器。

实际上,生成式的AI大模型,都依赖Transformer的解码器架构。

如果深入来看模型方框中的结构;

Transformer的解码器和llama模型,同时都包括了:

  • 红色的embedding层

  • 绿色的标准化层

  • 橙色的自注意力机制

  • 蓝色的前馈神经网络

在模型的输出位置,又同时都有:

  • 一个灰色linear线性层

  • 一个绿色的softmax层

2)数据流的计算

输入数据Input标记为1,会从下方输入。

首先经过2号embedding,进行词嵌入,将单词序列转为向量序列。

接着进入N个transformer块,进行特征提取。

虚线框中的结构,编号3到10,都是Transformer块中的内容。

我们只需要知道,它们会将Input,转换为一个固定长度的向量。

接着,这个向量会被11号RMS-norm和12号Linear层处理。

3)预测下一个字

预测下一个字,就是使用Linear层+softmax层。

Linear层用于将特征向量的维度数,转换为字典中字的数量。

softmax层用于计算下一个字出现的概率,也就是预测下一个字。

这实际上是一个分类的过程!

假如在中文词汇表中,有1000个字:

那么它就是一个1000个类别的多分类任务。

具体来说:

给定的输入文本会被Transformer转为固定长度的向量:

图中标记的4096,就是输入文本转换后的维度。

这个4096的向量会输入到Linear线性层:

通过Linear线性层:

我们可以将这个4096维的向量,转换为字典中字的个数的维度的向量;

比如字典中有1000个字,那么就被转为1000维的向量。

从而进行1000个类别的分类。

分类的结果,就是具体的某一个字。

将1000维的向量,继续输入到softmax层:

softmax层会给出1000个字,每个字可能的概率。

例如,对输入文本“今天天气真”进行“分类”,就得到“好”字。

4)如何选择输出结果

贪心方式选择:

如果我们选择概率最大的字作为下一个字,进行输出;

这是贪心的方式来选择结果。

例如,1000个字:

“好”字的概率是0.67;

“糟”字的概率是0.32;

其他所有加一起是“0.01”。

这时我们可以直接输出“好”字。

这种选择结果的方式,虽然简单,但也存在弊端:

因为直接输出概率最大的字,输出结果总是固定的。

chatgpt的回复就没有多样性了。

基于概率分布选择:

我们可以基于概率分布,随机的取出下一个字作为输出。

就像从一个黑箱中有放回的摸球,摸到哪个字,就输出哪个字;我们也不用担心摸到不常用的字;

因为我们可以将概率过低的字进行丢弃。这时我们就会选择“好”字,或者“糟”字;从而生成出两不同的结果了。这就是为什么,chatgpt可以生成不同结果的原理。

3.GPT2模型的推理实验

最后我们在本地电脑,进行大模型的推理实验。

这里选择GPT2进行实验。

简单介绍GPT2:

它是GPT4的前身,是openai的最后一个开源版本。

之所选择GPT2进行推理实验,是因为它所依赖的资源很少;

单机环境就可以运行大模型推理;

并且对于初学者,如果你想学大语言模型;

GPT2就是最合适的!

因为它的资料,真的很多!

1)模型下载

gpt2的中文模型,可以从huggingface上下载。

我们选择其中的clue-corpus-small,这个版本。

为了部署模型,需要下载其中的3个关键文件:

模型的配置:config.json

模型本身:pytorch_model.bin

切词字典:vocab.txt

2)实验代码1

使用这个模型需要基于Transformer库。

主要需要使用Transformer库的切词组件与GPT2模型组件。

下面在讲解代码时,我会基于代码的调试信息来说明。

实验整体包括两个部分,分词部分和推理部分。

分词部分:

首先定义设备变量device,打印后会看到我们当前的设备是cuda,GPU设备。

定义分词器,BertTokenizerFast。

使用分词器的encode函数,可以将句子分词,并将中文词语转为数字索引的形式。

例如,输入句子“[CLS]今天天气真”;

它就会被转换为6个整数索引,分别是101、791等等。

我们可以在字典vacab.txt中,找到这些词和对应的索引。

打开vacab.txt文件观察:

找到字典的第102行,就是[CLS]这个词。

找到字典的第792行,就是“今”这个字。

推理部分:

接着,我们使用接口from_pretrained,加载预训练模型。

定义max_len=20,表示向后生成20个字。在循环中,每循环一次,就生成一个字。

将输入序列input_ids输入到模型model后,会计算出推理结果output。这里我们直接选择概率最大的字,作为下一个字。也就是使用softmax函数,计算出所有字出现的概率后;

使用torch.max,贪心的选择最大概率的字。将这个字作为下一个生成结果,添加到response中。然后更新输入序列input_ids,把新生成的next_token,cat到input_ids中。接着我们将input_ids的整数索引与文本形式打印出来。

输出结果:

这时会看到,每一轮循环,都会生成一个字。

i=0时,生成了“的”字;

i=1时,生成了“很”字;

i=2时,生成了“好”字;

i=19时,就基于前面的19个字,就会生成最后一个“锅”字。

这样我们就基于“[CLS]今天天气真”;

生成了“的很好,我们一行人去吃的,点了一个牛肉锅”。

3)实验代码2:

实验代码1,是普通的文本生成;

实验代码2,是对话形式的文本生成。

这两个代码,只是加载的模型不同:

左侧是基础中文gpt2模型,右侧是中文对话微调的gpt2模型。

我们会发现,使用对话文本微调的gpt2模型,输出的结果包括了SEP分隔符。

在这里插入图片描述

如果输入“[CLS]今天天气真”;就会输出“好[SEP]是的,你最近怎么样”等等。通过SEP分隔符,我们就可以模拟出对话的效果了。

以上就是AI大模型的基本工作原理。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值