AI大模型原理（通俗易懂版）——大语言模型

Ethanwhh

已于 2024-07-25 17:30:48 修改

阅读量616

点赞数 12

文章标签：人工智能语言模型自然语言处理深度学习机器学习

于 2024-07-24 17:13:36 首次发布

本文链接：https://blog.csdn.net/m0_73672030/article/details/140665074

版权

传送门：AI大模型原理（通俗易懂版）-CSDN博客

大语言模型

啥是大语言模型？2022年11月30日，OpenAI发布ChatGPT一跃成为当下最快达到一百万用户的线上产品。也带动大语言模型成为了时下热点。更多AI聊天助手雨后春笋一般出现在大家的视野里。但你真的了解大语言模型吗？大语言模型也叫LLM （large language model），适用于做自然语言相关任务的深度学习模型。给模型一些文本内容输入，它能返回相应的输出，完成的具体任务可以是生成分类总结改写等等。

大语言模型首先需要通过大量文本进行无监督学习。以GPT3为例，它的训练数据有多个互联网文本语料库，覆盖线上书籍新闻文章科学论文、维基百科、社交媒体、帖子等等。借助海量的训练文本数据模型，能更多了解单词与上下文之间的关系，从而更好地理解文本的含义，并生成更准确的预测。但大语言模型的大指的不仅仅是训练数据巨大，而是参数数量巨大。参数是模型内部的变量，可以理解为是模型在训练过程中学到的知识参数决定了模型如何对输入数据做出反应，从而决定模型的行为。在过去的语言模型研究中发现用更多的数据和算力来训练具有更多参数的模型，很多时候能带来更好的模型表现。

这就像要AI学习做蛋糕，只允许AI调整面粉、糖、蛋的量和允许AI调整面粉、糖、蛋、奶油、牛奶、苏打粉、可可粉的量以及烤箱的时长和温度。后者由于可以调整的变量更多，更能让AI模仿，做出更好吃的蛋糕。随着参数的增加，它甚至有能力做出别的玩意儿，创造一些全新的品种。所以如今语言模型的参数数量可能是曾经的数万倍甚至数百万倍。

以OpenAI的第一个大模型GPT1为例，它有1.17亿个参数，到了GPT2参数有15亿个，GPT3的参数增长到了1750亿个。这让大模型不像小模型那样局限于单向或某几项任务，而是具有更加广泛的能力。比如在这之前我们可能要训练单独的模型，分别去做总结分类提取等等任务。但现在一个大模型就可以搞定这一切像ChatGPT、Claude、文心一言、通义千问等AI聊天助手都是基于大语言模型的应用。

Transformer

如果说2022年底ChatGPT的惊艳亮相是大语言模型公众认知被显著提升的里程碑，那他技术发展的里程碑其实要回溯到2017年。2017年6月，谷歌团队发表论文：Attention is all you need。提出了Transformer架构。自此自然语言处理的发展方向被改变了。随后出现了一系列基于Transformer架构的模型。

2018年OpenAI发布GPT1.0，谷歌发布Bert。2019年OpenAI发布GPT2.0等等。

所以大语言模型的发展早就如火如荼了，并不是像很多人以为的到了2022年才有所突破，但因为ChatGPT直接向公众开放，而且能让用户在网页上用对话的方式进行交互，体验很流畅丝滑，大众的目光才被吸引过去。ChatGPT背后的模型GPT首字母分别表示Generative Pre-trained Transformer生成式预训练Transformer也表明Transformer是其中的关键，所以要了解大语言模型就无法跳过Transformer。

在Transformer架构被提出之前，语言模型的主流架构主要是循环神经网络，简称RNN。按顺序逐次处理，每一步的输出取决于先前的隐藏状态和当前的输入，要等上一个步骤完成后才能进行当前的计算。因此无法并行计算，训练效率低，而且不擅长处理长序列，也就是长文本。由于的架构特点，词之间距离越远，前面对后面的影响越弱。所以它难以有效捕获到长距离的语义关系。

但在人类自然语言中，依赖信息之间距离较远是很常见的情况。比如这句话里正确预测下一个词的关键是距离很远的广东。如果RNN生成后续内容到了这里的时候，他可能已经把前面的信息忘没了。

为了捕获长距离依赖性，后来也出现了RNN的改良版本。LSTM长短期记忆网络，但是这也并没有解决传统RNN无法并行计算的问题。

而且在处理非常长的序列时也依然受到限制，后来Transformer踏着七彩祥云出现了。他有能力学习输入序列里所有词的相关性和上下文不会受到短时记忆的影响。能做到这一点的关键在于Transformer的自注意力机制。也正如论文标题所说，attention is all you need。注意力就是你所需要的一切。简单来说Transformer在处理每个词的时候，不仅会注意这个词本身以及它附近的词，还会去注意输入序列里所有其他的词。然后其余每个词不一样的注意力权重。权重是模型在训练过程中通过大量文本逐渐习得的。因此Transformer有能力知道当前这个词和其他词之间的相关性有多强。然后去专注于输入里真正重要的部分。即使两个词的位置隔得很远，Transformer依然可以捕获到它们之间的依赖关系。比如这个例子，单从语法上来讲，it可以指的是离得更近的street。也可以是离得更远的animal，这里自注意力机制捕获到了it和animal之间更强的关系。因此更集中在animal上。

除了自注意力机制Transformer的另一项关键创新是位置编码。在语言里顺序很重要，即使句子里包含的字都是一样的，但顺序不一样也能导致意思大相径庭。这也是为什么自然语言处理领域会用序列这个词。因为他表示一系列按照特定顺序排序的元素。前面提到。和人类阅读文本一样，对输入序列同样是按顺序依次处理。这就造成了训练速度的瓶颈，因为只能串行，没办法并行。也就是没法同时去学习所有信息。Transformer在把词输入给神经网络前除了会先对词进行嵌入转换成向量，也就是把词个用一串数字表示，还会把每个词在句子中的位置也各用一串数字表示添加到输入序列的表示中，然后把这个结构给神经网络。

那模型既可以理解每个词的意义，又能够捕获词在句子中的位置，从而理解不同词之间的顺序关系，借助位置编码词可以不按顺序。输入给Transformer模型可以同时处理输入序列里的所有位置，而不需要像RNN那样依次处理。那么在计算时，每个输出都可以独立的计算，不需要等待其他位置的计算结果。这大大提高了训练速度，一块训练出巨大的模型也不是那么难了。