大白话讲解LLM工作原理：从零入门ChatGPT

最新推荐文章于 2025-04-21 10:32:55 发布

功城师

最新推荐文章于 2025-04-21 10:32:55 发布

阅读量916

点赞数 12

文章标签： chatgpt 人工智能自然语言处理大语言模型深度学习 LLM 大模型

本文链接：https://blog.csdn.net/qingkahui24689/article/details/144981176

版权

引言

得益于大型语言模型（Large Language Models，简称 LLM），人工智能现在已经引起了几乎所有人的关注。ChatGPT 可能是最著名的 LLM，由于自然语言是一个非常自然的接口，使得每个人都能接触到人工智能领域的最新突破，因此它的受欢迎程度立即飙升。然而，除非你是数据科学家或从事其他与人工智能相关的工作，否则人们对 LLM 的工作原理仍然不太了解。在本文中，我们将尝试改变这种状况。

诚然，这是一个雄心勃勃的目标。毕竟，我们今天所拥有的强大 LLM 是数十年人工智能研究的结晶。遗憾的是，大多数介绍 LLM 的文章都是两种类型中的一种：它们要么技术性很强，需要大量的先验知识；要么非常琐碎，以至于你最终并不比以前知道得更多。

本文旨在兼顾这两种方法。或者让我换一种说法，本文将带您从零开始，了解大语言模型是如何训练出来的，以及为什么他们的工作如此出色。为此，我们将沿途撷取所有相关片段。

闲话少说，我们直接开始吧！

LLM在AI领域的定位

首先，让我们试着了解一下LLM在人工智能世界中的定位。

如上所述，人工智能领域通常被形象地分为多个层级：

**Artificial Intelligence：**AI是一个非常宽泛的术语，但一般指代的是智能化的机器。
**Machine Learning：**机器学习（ML）是人工智能的一个子领域，专门研究数据中的模式识别。可以想象，一旦你识别出一种模式，你就可以将这种模式应用到新的观察中。这就是这一理念的精髓所在，不过我们稍后会讲到这一点。
Deep Learning： 深度学习是 ML 的一个领域，主要针对非结构化数据，包括文本和图像。它依赖于人工神经网络，这种方法（粗略地）受到人脑的启发。
Large Language Models： LLM专门处理文本，这将是本文的重点。

机器学习

我们将从上述概念中选取相关的概念进行介绍。我们将跳过最外层的 “AI”（因为它太笼统了），直接进入 “机器学习”。

机器学习的目标是发现数据中的模式。更确切地说，是描述输入与结果之间关系的模式。我们来举例说明这一点。

比方说，我们要区分我最喜欢的两种音乐流派： reggaeton和 R&B。其中Reggaeton是一种拉丁都市音乐流派，以其活泼的节拍和易于起舞的节奏而闻名，而 R&B则是一种根植于非裔美国人音乐传统的流派，以深情的歌声和快慢节奏混合的歌曲为特色。

假设我们有20首歌曲。我们知道每首歌曲的节奏和能量，这两个指标可以简单地描绘出任何歌曲。此外，我们还人工对它们进行了标记，要么是reggaeton，要么是R&B。当我们对数据进行可视化时，可以看到高能量、高节奏的歌曲主要是reggaeton舞曲，而低节奏、低能量的歌曲大多是R&B，这很符合直觉。

但是，我们希望避免一直手工标注其标签，因为这样既耗时又无法扩展。相反，我们可以学习歌曲指标（节奏、能量）和标签之间的关系，然后只使用现成的指标进行预测。

用机器学习术语来说，我们说这是一个分类问题，因为结果变量（流派）只能是一组固定类别/标签中的一个–这里是reggaeton和 R&B。这与回归问题不同，回归问题的结果是一个连续值（如温度或距离）。

现在，我们可以使用我们的标注数据集（即我们知道歌曲类型的歌曲集）来训练一个机器学习模型（或分类器）。直观地说，模型的训练工作就是找到最能区分两个类别的线。

这有什么用呢？既然我们已经知道了这条线，那么对于任何一首新歌，我们都可以根据这首歌属于这条线的哪一边，来预测它是reggaeton歌曲还是 R&B 歌曲。我们所需要的只是节奏和能量，而我们认为这更容易获得。这比人工为每首歌指定流派要简单得多，也更容易扩展。

此外，可以想象，离直线越远，我们就越有把握预测正确。因此，我们通常也可以根据离线的距离来说明我们对预测的正确性有多大把握。例如，对于一首低能量、低节奏的新歌，我们可能有 98% 的把握认为这是一首 R&B 歌曲，而只有 2% 的可能性认为它实际上是reggaeton歌曲。

当然，现实往往比这更复杂。区分类别的最佳边界可能不是线性的。换句话说，输入和结果之间的关系可能更加复杂。如上图所示，它可能是弯曲的，甚至比这复杂得多。

现实通常在另一个方面也更为复杂。与我们的例子中只有两个输入变量不同，我们通常有几十、几百甚至几千个输入变量。此外，我们还经常有两个以上的类。而所有类别都可能通过极其复杂的非线性关系依赖于所有这些输入变量。

即使以我们的例子为例，我们也知道，实际上音乐流派不止两种，除了节奏和能量之外，我们还需要更多的衡量标准。它们之间的关系可能也不那么简单。

我主要想让你明白这一点：输入和输出之间的关系越复杂，我们学习这种关系所需的机器学习模型就越复杂、越强大。通常，复杂度会随着输入和类别的数量而增加。

除此之外，我们还需要更多的数据。稍后您就会知道这一点的重要性。

其他分类问题

现在我们来讨论一个稍有不同的问题。在新问题中，我们输入一张图片，例如，这张可爱的猫咪被装在袋子里的图片。至于我们的结果，假设这次我们有三个可能的标签：老虎、猫和狐狸。如果你需要一些动机来完成这项任务，那么我们可以说，我们可能想要保护一群羊，如果我们看到老虎，就会发出警报，但如果我们看到猫或狐狸，就不会发出警报。

**我们已经知道这又是一项分类任务，因为输出只能是几个固定类别中的一个。**因此，就像以前一样，我们可以简单地使用一些可用的标注数据（即带有指定类别标签的图像）来训练机器学习模型。

不过，我们究竟如何处理视觉输入还不太清楚，因为计算机只能处理数字输入。当然，我们的歌曲指标能量和节奏都是数字。幸运的是，图像也是数字输入，因为它们由像素组成。它们由高度、宽度和三个通道（红、绿、蓝）组成。因此，从理论上讲，我们可以直接将像素输入机器学习模型。

然而，现在我们面临两个问题。首先，即使是一张小尺寸、低质量的 224x224 图像，也包含超过 15 万个像素（224x224x3）。还记得我们之前说的输入变量最多只有几百个（很少超过一千个），但现在我们突然有了至少 15 万个输入变量。

其次，如果大家考虑一下原始像素和类别标签之间的关系，就会发现这种关系非常复杂，至少从 ML 的角度来看是如此。我们人类的大脑具有惊人的能力，可以很容易地将老虎、狐狸和猫区分开来。但是，如果你逐个查看这 15 万个像素，你根本不知道图像包含了什么。但这正是机器学习模型看到它们的方式，因此它需要从头开始学习这些原始像素与图像标签之间的映射或关系，这可不是一件小事。

接着让我们来考虑另一种极其复杂的输入-输出关系–句子与其情感之间的关系。我们通常所说的情感是指句子所传达的情绪，这里指正面或负面的情绪。

让我们再次将问题模型化：这里的输入是一串单词，即一个句子，而情感则是我们的结果变量。和之前一样，这是一项分类任务，这次有两个可能的标签，即正面或负面。与前面讨论的图像示例一样，作为人类，我们可以自然地理解这种关系，但我们能教会机器学习模型做同样的事情吗？

在回答这个问题之前，一开始我们并不清楚如何将文字转化为机器学习模型的数字输入。事实上，这要比我们看到的图像复杂一两个层次，因为我们看到图像基本上已经是数值化的了。而文字则不同。我们在此不再赘述，但您需要知道的是，每个单词都可以转化为单词嵌入。

简而言之，单词嵌入代表了单词的语义和句法意义，通常是在特定语境中。这些嵌入可以作为机器学习模型训练的一部分，也可以通过单独的训练程序获得。通常情况下，单词嵌入由数万到数千个变量组成，即每个单词都有变量。

总而言之，我们可以将一个句子转化为一系列数字输入，即包含语义和句法意义的词嵌入。然后将其输入机器学习模型。但现在我们面临着与视觉输入相同的挑战。可以想象，对于一个长句（或段落，甚至整篇文档）来说，由于单词嵌入的规模很大，我们很快就能获得非常多的输入。

第二个问题是语言与情感之间的关系，这很复杂，非常复杂。只要想一想 "这一跤摔得真棒 "这样的句子，就知道它有多少种解释方式（更不用说讽刺了）。

我们需要的是一个极其强大的机器学习模型和大量数据。这就是深度学习的用武之地。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

深度学习

通过了解机器学习的基础知识和使用更强大模型背后的动机，我们已经在理解 LLM 方面迈出了一大步，现在我们将通过介绍深度学习再迈出一大步。

我们谈到，如果输入和输出之间的关系非常复杂，而且输入或输出变量的数量很大（之前的图像和语言示例就属于这种情况），我们就需要更灵活、更强大的模型。线性模型或任何接近线性模型的方法都无法解决这类视觉或情感分类任务。

这就是神经网络的作用所在。

神经网络是一种功能强大的机器学习模型，可对任意复杂的关系进行建模。它们是大规模学习此类复杂关系的首选。

事实上，神经网络的灵感来源于大脑，但两者之间的实际相似性还有待商榷。它们的基本架构相对简单。它们由一层层相连的 "神经元 "组成，输入信号通过这些 "神经元 "来预测结果变量。你可以把它们想象成多层线性回归堆叠在一起，中间加入非线性因素，从而使神经网络能够高度模拟非线性关系。

神经网络通常有很多层（因此被称为深度学习），这意味着它们可以非常庞大。例如，ChatGPT 就是基于一个由 1760 亿个神经元组成的神经网络，这比人脑中大约 1000 亿个神经元还要多。

因此，从现在起，我们将假定神经网络作为我们的机器学习模型，并考虑到我们也已经学会了如何处理图像和文本。

引入LLM

最后，我们可以开始讨论大型语言模型，这才是真正有趣的地方。如果您已经了解到这一点，那么您应该已经掌握了理解 LLM 的所有知识。

我们可以从解释大型语言模型的实际含义开始。我们已经知道 "大 "意味着什么，在这里，"大 "只是指神经网络中神经元的数量，也称为参数量。对于什么是大型语言模型，并没有一个明确的数字，但你可以将超过 10 亿个神经元的模型视为大型语言模型。

既然如此，那么什么是语言模型呢？让我们接下来讨论一下这个问题–而且我们还要知道，稍后我们还将了解 ChatGPT 中的 GPT 代表什么。不过，还是一步一步来吧。

让我们把下面的想法作为机器学习的问题：在给定的单词序列中，即在一个句子或段落中，下一个单词是什么？换句话说，我们只是想学习如何随时预测下一个单词。在本文前面的内容中，我们已经了解了将这一问题作为机器学习问题所需的一切。事实上，这项任务与我们之前看到的情感分类并没有太大的区别。

在这个例子中，神经网络的输入是一串单词，但现在任务只是预测下一个单词。同样，这只是一个分类任务。唯一不同的是，我们现在不再只有两个或几个类别，而是有多少个词就有多少个类别–比方说，大约有 50,000 个词。这就是语言模型学习的目的–学习预测下一个单词。

可以想象，这比二类情感分类要复杂得多。但既然我们也了解了神经网络及其强大的功能，那么对这种担忧的唯一回应就是 “为什么不呢？”

大规模训练数据

到这里，我们知道了任务，现在需要数据来训练神经网络。其实，为我们的 "下一个单词预测 "任务创建大量数据并不难。互联网、书籍、研究论文等都有大量的文本。我们可以轻松地从所有这些数据中创建一个庞大的数据集。我们甚至不需要给数据贴标签，因为下一个词本身就是标签，这就是为什么这也被称为自监督学习。

上图展示了如何做到这一点。只需一个文本序列，就可以变成多个序列进行训练。我们有很多这样的序列。重要的是，我们对许多短序列和长序列（有的多达数千个单词）都进行了这样的训练，这样我们就能在各种语境中学习下一个单词应该是什么。

总而言之，我们现在要做的就是训练一个神经网络（LLM）来预测给定词序列中的下一个词，无论这个词序列是长是短，是德语、英语还是其他任何语言，是一条推文还是一个数学公式，是一首诗还是一段代码。所有这些都是我们可以在训练数据中找到的序列。

如果我们有足够大的神经网络和足够多的数据，那么 LLM 在预测下一个单词方面就会变得非常出色。它会是完美的吗？当然不是，因为一个序列后面往往会有多个单词。但它会变得善于从句法和语义上都合适的单词中选择一个。

既然我们可以预测下一个单词，那么我们就可以将扩展序列反馈回 LLM 并预测另一个单词，以此类推。换句话说，利用我们训练有素的 LLM，我们现在可以生成文本，而不仅仅是一个单词。这就是为什么 LLM 是我们所说的生成式人工智能的一个例子。我们刚刚教会 LLM 说话，可以一次只说一个词。

我认为还有一个细节需要了解。我们不一定非要预测最有可能出现的单词。相反，我们可以从特定时间内最有可能出现的五个词中进行抽样。因此，我们可以从 LLM 中获得更多的创造力。有些 LLM 实际上允许你选择输出结果的确定性或创造性。这也是为什么在使用这种抽样策略的 ChatGPT 中，当你重新生成一个回答时，通常不会得到相同的答案。

引入GPT

说到 ChatGPT，你可能会问自己为什么不叫 ChatLLM。事实证明，语言模型并不是故事的结尾，事实上，它只是一个开始。那么 ChatGPT 中的 GPT 代表什么呢？

实际上，通过上文我们刚刚了解到 G 代表什么，即 “生成”–这意味着它是以语言生成为目标进行训练的，这一点我们已经讨论过了。那么 P 和 T 又是什么意思呢？

我们在这里略过 “T”，它代表 “transformer”–不是电影中的变形金刚，而是一种简单的神经网络架构。这并不影响我们在这里的讨论，但如果你很好奇，只想知道它的主要优势，那就是transformer架构之所以运行良好，是因为它可以随时将注意力集中在输入序列中最相关的部分。可以说，这与人类的工作方式类似。我们也需要将注意力集中在与任务最相关的部分，而忽略其他部分。

P 代表 “预训练”。接下来，我们将讨论为什么我们突然开始谈论 “预训练”，而不再仅仅是 “训练”。

**预训练
**

事实上，ChatGPT 这样的大型语言模型实际上是分阶段训练的。

第一阶段是预训练，也就是我们刚才所经历的。这一阶段需要大量数据来学习预测下一个单词。在这一阶段，模型不仅要学习掌握语言的语法和句法，还要掌握大量关于世界的知识，甚至是我们稍后将谈到的其他一些涌现能力。

但现在我有几个问题要问大家：首先，这种预训练可能存在什么问题？当然有几个问题，但我想指出的问题与LLM到底真正学到了什么有关。

也就是说，LLM主要学会了滔滔不绝地谈论一个话题。它甚至可能做得非常好，但它并不能很好地响应你通常希望给人工智能的输入，比如指令。问题在于，这个模型还没有学会如何成为一个助手，因此它的行为也不像一个助手。

例如，如果你问一个经过预训练的 LLM “你叫什么名字？”，它可能会回答 “你姓什么？”，原因很简单，因为这是它在预训练时见过的数据。它只是试图完成根据输入序列预测下一个单词。

它不能很好地处理指令，只是因为这种语言结构（即指令后有回复）在训练数据中并不常见。也许 Quora 或 StackOverflow 是最接近这种结构的代表。

在这个阶段，我们说大型语言模型（LLM）与人类的意图不一致。对于LLM来说，一致性是一个重要的主题，我们将学习如何在很大程度上解决这个问题，因为事实证明，这些预训练的LLM实际上相当可控。因此，即使最初它们对指令的响应不佳，也可以被教会如何做到这一点.

**指令微调和RLHF
**

这就是指令微调发挥作用的地方。我们采用预先训练好的LLM，并基本上做我们之前做过的事情——即，一次学习预测一个词——但现在我们使用高质量的指令和响应对作为我们的训练数据来进行这项工作。

通过这种方式，模型不再仅仅是一个文本补全器，而是学会成为一个遵循指令并以符合用户意图的方式作出响应的有用助手。这种指令数据集的规模通常比预训练数据集小得多。这是因为高质量的指令-响应对的创建成本要高得多，因为它们通常来源于人类。这与我们在预训练中使用的廉价的自监督标签非常不同。这也是为什么这个阶段也被称为监督指令微调的原因。

还有一些像ChatGPT这样的LLM会经历第三个阶段，即从人类反馈中进行强化学习（RLHF）。我们在这里不详细讨论，但其目的与指令微调类似。**RLHF也有助于一致性，并确保LLM的输出反映了人类的价值观和偏好。**一些早期研究表明，这个阶段对于达到或超越人类水平的表现至关重要。事实上，将强化学习和语言建模领域结合起来正在显示出特别的前景，可能会导致我们目前拥有的LLM的巨大改进。

案例介绍

现在，让我们通过一些常见的具体案例来检验一下我们的理解能力。

首先，为什么 LLM 可以对较长的文本进行摘要？(如果你还不知道的话，它做得非常棒。只需粘贴一份文档，然后让它进行摘要即可）。

要了解原因，我们需要考虑一下训练数据。人们经常在互联网、研究论文、书籍等方面进行总结。因此，以这些数据为基础进行训练的 LLM 也学会了如何进行总结。它学会关注要点，并将其压缩成简短的文本。

请注意，在生成文本摘要时，全文是 LLM 输入序列的一部分。这类似于研究论文的结论，而全文则出现在结论之前。

因此，这种技能很可能已经在预训练中学习到了，尽管指令微调肯定有助于进一步提高这种技能。我们可以假设，这一阶段也包括一些总结范例。

第二，为什么LLM可以回答常识性问题？

正如前文提到的，能够作为助手并作出适当响应的能力是由于指令微调和从人类反馈中进行强化学习（RLHF）。但回答问题本身所需的所有（或大部分）知识已经在预训练阶段获得了。

当然，这又提出了一个大问题：如果LLM不知道答案怎么办？不幸的是，在这种情况下，它可能只是编造出一个答案。为了理解原因，我们需要再次思考训练数据和训练目标。

大家可能听说过 "幻觉 "这个词，它指的是LLM在不该编造事实的时候编造事实的现象。为什么会出现这种情况？因为 LLM 只学会生成文本，而不是生成具有事实真实性的文本。在训练过程中，模型无法获得任何训练数据的真实性或可靠性指标。然而，这甚至都不是主要问题，问题在于互联网上和书本中的文本一般听起来都很有把握，因此 LLM 当然也会这样学习，即使它是错误的。这样一来，LLM就几乎无法辨别不确定性了。

尽管如此，这仍是一个活跃的研究领域，我们可以期待随着时间的推移，LLM 会减少产生幻觉的可能性。例如，在教学调整过程中，我们可以尝试教导 LLM 在一定程度上避免产生幻觉，但只有时间才能证明我们能否完全解决这个问题。

你可能会惊讶地发现，我们现在就可以在这里一起尝试解决这个问题。我们拥有所需的知识，可以找出至少部分有帮助的解决方案，而且这种解决方案如今已被广泛使用。

Search-based LLM

假设您向LLM提出以下问题：哥伦比亚现任总统是谁？LLM很有可能回答错名字。这可能有两个原因：

第一种情况是我们已经提到过的：LLM可能只是产生了幻觉，简单地用一个错误的甚至是假的名字来回答。
第二个问题我只是顺便提一下：LLM只接受截止到某个截止日期的数据的训练，而这个截止日期最早可能是2023年。正因为如此，LLM 甚至无法确切地知道现任总统的情况，因为自数据创建以来，情况可能已经发生了变化。

那么，如何才能解决这两个问题呢？答案就在于为模型提供一些相关的上下文。这样做的理由是，LLM 输入序列中的所有内容都可以随时供它处理。

假设我们将维基百科上关于哥伦比亚政治历史的文章作为 LLM 的上下文。在这种情况下，回答正确的可能性会大很多，因为它可以简单地从上下文中提取出名字（当然，前提是它是最新的，并且包含了现任总统）。

在上图中，大家可以看到带有附加上下文的 LLM 典型提示。(顺便说一下，提示只是我们给 LLM 的指令的另一个名称，即构成输入序列的指令）。这个过程被称为将 LLM 置于语境中，或者说置身于现实世界中，而不是让它自由生成。

这正是必应聊天和其他基于搜索的 LLM 的工作方式。它们首先使用搜索引擎从网络中提取相关上下文，然后将所有信息与用户的初始问题一起传递给 LLM。请参阅上图，了解如何实现这一目标。

涌现

现在，我们已经到了基本了解LLM主要机制的程度，你可能会想 “这其实并没有那么神奇”，因为所有发生的事情都是一个一个单词的预测。毕竟，这是纯粹的统计学。或者是这样吗？

让我们倒退一下。这一切的神奇之处在于它的效果非常好。事实上，每个人，甚至是 OpenAI 的研究人员，都对这种语言建模所能达到的程度感到惊讶。在过去几年中，神经网络和数据集的大规模扩展是关键驱动力之一，这也导致性能随之提升。例如，GPT-4，据说是一个总参数超过一万亿个的模型，可以在律师资格考试或生物学考试中以前 10% 的成绩通过。

令人惊讶的是，这些大型 LLM 甚至显示出某些新出现的能力，即解决任务的能力，以及做没有经过明确训练的事情的能力。在文章的最后一部分，我们将讨论其中一些新出现的能力，并向你展示一些如何利用它们解决问题的技巧。

zero-shot prompting

零样本提示是一种无处不在的新兴能力顾名思义，就是 LLM 可以完成它们在训练中处理没有遇到过的全新任务，这就是所谓的zero-shot。它所需要的只是一些关于如何解决任务的指令。

为了用一个愚蠢的例子来说明这种能力，你可以要求LLM将一个句子从德语翻译成英语，同时只回答以 "f "开头的单词。

例如，当被要求只用 "f "开头的单词翻译一个句子时，LLM将 “Die Katze schläft gerne in der Box”（德语，字面意思是 “猫喜欢睡在盒子里”）翻译成了 “Feline friend finds fluffy fortress”，我认为这是一个很酷的翻译。

Few-shot prompting

对于更复杂的任务，您可能很快就会意识到，零样本提示通常需要非常详细的说明，即便如此，性能通常也远非完美。

为了进一步与人类智能联系起来，如果有人让你执行一项新任务，你可能会要求一些示例或演示来了解如何执行该任务。LLM也可以从中受益。

举个例子，假设你想让一个模型将不同货币的金额转换为一种通用格式。你可以详细描述你想要的结果，或者简单给出一个指令和一些示例演示。上面的图片展示了一个示例任务。

根据这一提示，模型应该能很好地完成最后一个例子，即 “Steak: 24.99 USD”，并回答 24.99 美元。

请注意，我们只是省略了最后一个例子的解法。请记住，LLM 本质上还是一个文本生成器，因此要保持结构的一致性。就像我们在上面的例子中所做的那样，你几乎应该强迫模型做出你想要的回应。

总之，一般的建议是，如果LLM在任务中遇到困难，可以提供一些参考样本的例子。你会发现，这往往有助于LLM理解任务，使他们的表现通常更好、更可靠。

COT prompting

LLMs 的另一项有趣能力也让人联想到人类智能。如果任务比较复杂，需要多步推理才能解决，这种能力就特别有用。

假设我问你："梅西出生前一年的世界杯冠军是谁？"你会怎么做？你可能会一步一步地解决这个问题，写下得出正确答案所需的中间解法。这也正是LLM可以做到的。

研究发现，只需告诉 LLM “一步一步地思考”，就能大幅提高它在许多任务中的表现。

为什么会这样？我们知道回答这个问题所需的一切。问题是，这种不寻常的综合知识可能不会直接存在于 LLM 的内部记忆中。然而，所有的单个事实可能都在，比如梅西的生日和各届世界杯的冠军。

让 LLM 逐渐得到最终答案是有帮助的，因为这给了模型时间进行思考–可以说是工作记忆–并在给出最终答案之前解决较简单的子问题。

这里的关键是要记住，待生成单词左侧的所有内容都是模型可以依赖的上下文。因此，如上图所示，当模型说出 “Argentina”（阿根廷）时，梅西的生日和我们询问的世界杯年份已经在 LLM 的工作记忆中了，这样就更容易回答正确。

结论

在结束之前，我想回答我在文章前面提出的一个问题。LLM 真的只是预测下一个单词吗？一些研究人员认为LLM 要想在任何语境下都能如此出色地预测下一个单词，必须在内部获得对世界的压缩理解。而不是像其他人所说的那样，该模型只是学会了记忆和复制训练过程中看到的模式，对语言、世界或其他任何事物都没有实际的理解。

最后，我希望这篇文章能帮助你了解 LLM 以及当前围绕 LLM 的热潮，从而对人工智能的潜力和风险形成自己的看法。决定如何利用人工智能造福世界的不仅仅是人工智能研究人员和数据科学家，每个人都应该有发言权。这就是为什么我想写一篇不需要很多背景知识的文章。