llm的inference(一)

我有一只可爱的草莓熊

已于 2024-02-24 11:57:08 修改

阅读量1.7k

点赞数 30

分类专栏：深度学习文章标签： LLM 推理 Transformer

于 2024-02-24 11:23:13 首次发布

本文链接：https://blog.csdn.net/qq_41596730/article/details/136268395

版权

深度学习专栏收录该内容

10 篇文章

订阅专栏

文章目录

前提
LLM
宏观层面的LLM推理过程
宏观推理过程的进一步详细说明
- 从字符串输入到网络的输出
总结
参考链接

前提

对LLM(大语言模型)的推理不太清楚，自己把遇到的和推理相关的知识做个总结，如有错误，还请大家多多指导。

LLM

LLM可以分为：闭源和半开源。闭源就是什么都没有，只有接口供用户使用，例如GPT系列；半开源就是提供了权重文件，但是没有训练的代码，我们可以使用这个权重进行推理，例如llama系列。

LLM结构

现代的LLM模型基本上都是在Transformer结构上进行展开的。原生Transfromer结构如下：
在这里插入图片描述

在《Attention is All Your Need》这篇文章中，Encoder和Decoder的层数 $N = 6$ 。
不同的LLM的架构架构有所区别，主要分为以下三种：

1.Encoder-only

只使用Encoder部分，没有Decoder部分，这样就可以看成是我们之前了解的自编码器。它可以对数据进行维度压缩、特征提取等等。Bert就使用的是Encoder-only的架构。

2.Encoder-Decoder

同时使用编码-解码器，编码器将输入编码为中间表达，然后解码器对中间表达进行解码。输入是序列，输出也是序列，所以它可以应对翻译，生成这样的任务。使用这种架构的llm有GLM、T5、Bart等。

3.Decoder-only

只使用Decoder部分，没有Encoder。通常用于条件生成任务，给定一些条件信息作为输入，模型通过解码器生成相应的输出，例如图像描述生成，文本生成任务。使用这种架构的llm有GPT系列，llama系列等。常见的chat模型都是基于Decoder-only。

宏观层面的LLM推理过程

先从宏观层面了解一下llm的推理过程，llm的推理是一个token一个token往出崩的，也就是串行输出的。总的来说：LLM推理的过程是一个自回归的过程，也就是说前i次的token会作为第i+1次的预测数据送入模型，拿到第i+1次的推理token。如下图所示：
在这里插入图片描述

起始输入的token是china，输出的token是is；在接下里的这次回归过程中，会将上一次的输出is和china进行拼接后再一起送入模型，以此类推，直到遇到条件中止。
宏观上LLM就是这么进行推理的。

宏观推理过程的进一步详细说明

上面的过程是宏观的过程，那么这个过程中大概的数据流是什么样呢？接下来我们对此做个简单的介绍。

从字符串输入到网络的输出

假设我们正在和GPT3进行对话，我们输入"Lionel Messi is a"，则input="Lionel Messi is a"。我们知道神经网络只能输入数字(也就是tensor)，那么从input开始是如何变为tensor的，它的维度又是多少，网络输出的维度又是多少呢？在下文我们一一解答。

首先会对input进行tokenizer，也就是将input划分为不同的token，并将其转换为对应的ID。在openAI 网站中可以给我们一个直观的解释。

tokenizer将input划分为6个Tokens，并为每个Token赋予了一个ID：

所以经过tokenizer后，input变为了[43, 295, 417, 36128, 318, 257]。
进行one-hot编码。可以确定的是在GPT3中总共使用了50257个词汇，因此将上面的input进行one-hot编码，编码后的维度为[6,50257]。
embedding(词嵌入)。可以看到50257维度有些太大了，并且大部分都为0，浪费了很多空间。所以可以试图将输入向量进行压缩(也就是映射到低维空间)，减小维度。GPT压缩后的维度为12288，具体的过程就是：[6,50257]*[50257,12888] = [6,12288]。其中[50257,12288]这个矩阵的权重已经提前训练好了。
最终网络的输入为[6,12888]，经过网络的推理后维度仍为[6,12288]，然后我们对其进行反映射(乘以另一个权重矩阵，大小为[12888，50257])，最终得到的输出大小为[6,50257]，然后我们取最后一个行向量即为网络预测的结果，然后从其中取概率最大的token作为网络的输出。