大语言模型LLM揭秘：小白也能懂的运作原理科普

大模型玩家

于 2024-08-15 14:10:22 发布

阅读量485

点赞数 10

文章标签：语言模型人工智能自然语言处理算法 llama ai agi

本文链接：https://blog.csdn.net/2401_85375186/article/details/141220852

版权

最近关于人工智能的所有讨论——它的影响、它引发的道德困境、采用它的利弊——我的非技术朋友之间的讨论很少涉及这些东西是如何工作的。从表面上看，这些概念似乎令人畏惧，掌握大型语言模型 (LLMs) 功能的想法似乎难以逾越。

但事实并非如此，这个原理其实任何人都可以理解。因为推动人工智能浪潮的基本原理相当简单。

多年来，在运营 Anchor、在 Spotify 领导有声读物以及撰写每周时事通讯的同时，我必须找到为非技术受众提炼复杂技术概念的方法。因此，请耐心等待，我将在没有任何技术术语或数学方程的情况下解释 LLMs 的实际工作原理。为此，我将使用一个我们都熟悉的主题：食物。与 LLM 类比，“菜肴”（dishes）是大语言模型要生成的单词，而“三餐”（meals）是大语言模型要生成的句子。让我们深入了解一下。

菜单

想象一下：您正在做一顿晚餐，您准备的食物还不够，所以我们需要在晚餐中添加一个菜。

但这说起来容易做起来难。我们选择的食物需要与晚餐搭配。如果饭菜很美味，我们的配菜也应该很美味。如果已经有沙拉，我们就不应该再做。如果这顿饭的淀粉含量很高，也许我们想加入烤蔬菜。

如果有一个应用程序能够告诉我们要做什么就好了。这个应用程序能考虑你已经在做什么，并想出一个最佳的配菜。这个程序适用于任何餐点、任意菜肴和口味组合，无论是供 4 人还是 40 人享用。

所有插图均由本文作者绘制，素材图片由 ChatGPT 生成

我们将制作这个应用程序。只需两个简单的步骤。

首先，我们将开发一种对食物进行分类的方法。毕竟，计算机没有味蕾，也不能直观地理解食物或口味如何组合在一起，它们需要能够接受食物的新概念，并将其编码为某种数据。

其次，我们将让应用程序学习，如何在获取现有一组菜肴的基础上，并生成新的菜。它不仅仅是记住以前见过的东西，而是需要适用于任何菜肴组合，甚至是从未见过的菜肴组合。所以我们不仅仅是要对系统进行编程，我们要教它如何生成合适的菜。

第一步：模拟三餐

我们将首先教计算机将三餐纳入为数据。我们不会通过向其提供有关三餐的定性细节来做到这一点（例如它的味道或搭配）。这是旧类型的机器学习——限制太多且容易出错。相反，我们将向其提供大量有关人们过去搭配的菜肴类型的数据。

让我们考虑两种类型的菜肴：凯撒沙拉和卡普雷塞沙拉。作为人类，我们知道这两道菜很相似。它们都是意大利菜，都是沙拉，都含有蔬菜和奶酪……但是机器不需要知道以上任何内容就可以了解这两道菜有多么相似。

在我们海量的数据中，凯撒沙拉很可能经常与其他意大利菜肴搭配。而且凯撒沙拉的存在也很可能意味着膳食中不会再有沙拉。卡普雷塞沙拉也是如此。它们通常不会与其他沙拉一起出现，但会与意大利菜肴一起出现。

因为这两种菜肴经常与相同类型的菜肴同时出现，所以我们可以将它们归类为相似的。它们往往存在于相同的食物中。你可能会说“一道菜的特点是与它伴随的其他菜。”

请注意，我们没有去寻找凯撒沙拉和卡普雷塞沙拉同时出现的情况，我们并不是通过一餐当中同时出现这两种沙拉来判断它们相似的，而是通过它们在一餐当中伴随的其他相同菜肴来判断的。

这里提供另一种解释方式，想象一下在这张图表上绘制所有的菜肴：

首先，我们将数据中发现的所有可能的菜肴随机绘制出来：

为了说明目的，我们在这里仅展示四道菜，但实际上可以想象每一种可能的菜肴。

每次我们发现两种菜肴与其他菜肴同时出现时，我们就可以将它们移得更近。当我们看到不同类型的寿司搭配相同的味噌汤时，我们将让寿司彼此靠近。当我们看到披萨和意大利面与大蒜面包一起出现时，我们也会让它们放在一起：

在做了很多次之后（我的意思是很多很多次），神奇的事情发生了。可以相互替换的菜肴会非常紧密地聚集在一起，看起来彼此更接近（例如炸玉米饼和墨西哥卷饼）。很少能相互替换的菜肴（例如汉堡和寿司），如果有的话，将会相隔很远。

不过，现实中，仅仅二维坐标系是不够的。为了正确地对每道菜进行聚类，我们需要一个由更多轴（数百个，也许数千个）组成的图表。这是不可想象的，但基本概念是相同的。我们将所有食物分散开来，并在它们与类似菜肴同时出现时将它们移得更近。

为了方便表达，我将把这个更大的多轴图称为用餐空间（meal-space）。每一种可能的菜肴都存在于用餐空间中，与可替换的菜肴紧密协同，而远离那些非常不同的菜肴。

让我们退后一步，欣赏一下这是多么迷人。我们能够提出一个非常准确的菜肴模型，其中相似的菜肴被分组在一起，不同的菜肴则相距很远。我们这样做时没有考虑食物的味道或它们的成分。

另外，因为我们用大量数据进行了训练，所以我们能够进行食物的计算。

食物的计算？ “尼尔，你疯了！”

我向你保证，我没疯。你必须相信我的话。事实证明，用餐空间中菜肴的放置并不是随机的。相似的食物不仅紧靠在一起，且与其他食物也有逻辑关系。含有面包的菜肴都一起出现在一个平面上，咸味食物有一个共同点，枫味的东西有自己的数学联系。

这使我们能够进行食物的计算。如果我要获取墨西哥卷饼的坐标并减去玉米饼的坐标，我最终会接近墨西哥卷饼碗的坐标点。如果我取鸡肉面汤的坐标，减去面条的坐标，然后加上米饭的坐标，我最终会接近鸡肉和米汤的坐标点。

用餐空间中菜肴的放置不再是随机的。事实上，存在潜在的、隐藏的数学模式，这意味着每种菜肴都相对于其他菜肴处于某种逻辑中。

第二步：寻找模式

我们创造了一个用餐空间，并为每种类型的菜肴提供了某种相对于其他菜肴有意义的协同模式。接下来呢，怎么办？

让我们再次训练我们的模型。只是这一次，我们会喂它三餐所有的数据，由不同的菜肴组成——我们谈论的是我们见过的每顿饭——并且我们会要求它寻找模式。具体来说，我们想要训练我们的程序来回答这个问题：如果一顿饭包含 A、B、C 和一个未知的 D，那么什么类型的菜最有可能是 D？

为此，我们所要做的就是问：A、B、C 和未知的 D 在用餐空间中是什么样子？例如，假设我们看到许多餐食在图表的这四个区域中共享菜肴。

我们现在可以忽略最初创造这些模式的原始食物，只归纳并考虑空间中的坐标了。我们可以得出结论，如果一顿饭已经包含这三个区域中的菜肴，则最好的第四个菜肴将在最后一个区域中找到。

请记住：“一道菜肴是根据它所伴随的其他菜肴来分类的。”由于我们的模型经过训练，可以考虑食物及其关系，而不是特定菜肴的成分和口味，因此它可以考虑任何场景和任何口味组合，并找出添加到膳食中的最佳菜肴。给定几个食物区域，它只需要找到下一道菜最常见的区域……

…这让我们完成了最初的目标：构建一个应用程序，能够可靠地告诉我们哪些菜肴可以与一系列其他菜肴搭配。我们就是用这种方式实现的。

用文字代替菜谱

要理解大语言模型（LLMs），请用句子替换“三餐”的概念，并用文字代替“菜肴”的概念。这种简单的替换，使用相同的框架和方法，基本上可以让我们了解基于文本的人工智能工具的工作原理。

第一步：训练一个模型，根据单词在相似上下文中出现的频率来理解单词之间的关系。 “一个词是根据它所伴随的其他单词来分类的。”向它提供大量人工编写的数据（当我说大量时，我基本上指的是整个互联网），并让它适当地调整单词坐标。

训练后，模型会输出向量空间。这和生成菜肴的原理是相同的。系统不知道任何单词的含义（就像它不知道菜肴的味道一样）。它只了解该单词如何与向量空间中的所有其他单词相关。

第二步：寻找模式。如果一个句子包含单词 A、B 和 C，那么下一个最有可能出现的单词是什么？如果它包含 X 和 Y，那么它应该在向量空间的哪个区域中查找接下来发生的事情？

LLM 真正在幕后做的就是所谓的“下一个单词预测”（就像我们最初的类比执行“下一道菜预测”一样）。例如，我们提示 LLM：“告诉我你爱我。”它将尝试回答一个问题：哪个单词最有可能遵循该单词序列？或者换句话说：给定该句子中单词的向量空间坐标，我在其他句子中看到了哪些模式来确定我可以在哪里找到下一个单词？

LLM 会找到的答案是“我”。确定后，它会将“我”添加到原始提示的末尾，并将整个内容反馈回自身。现在，“告诉我你爱我”之后最有可能出现的词是什么。我”？当然是“爱”！把它粘起来，把整个东西带回来，然后把它反馈回来。接下来可能会发生什么：“告诉我你爱我。我爱”？…

你应该懂了。

当然，还有一些细微差别。其中涉及一些奇特的数学和复杂的计算。但基本原理确实与三餐示例中的基本原理没有什么不同。

对我来说，这就是为什么我们正在经历的人工智能现象如此令人着迷。考虑到这项技术的变革性，它实际上并没有那么复杂。一些简单的数学概念，大量的训练数据，一点点盐和胡椒粉，你基本上就为自己建造了一台思考机器。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

如果二维码失效，可以点击下方链接，一样的哦
【CSDN大礼包】最新AI大模型资源包，这里全都有！无偿分享！！！

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

大模型玩家

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大语言模型LLM揭秘：小白也能懂的运作原理科普

最近关于人工智能的所有讨论——它的影响、它引发的道德困境、采用它的利弊——我的非技术朋友之间的讨论很少涉及这些东西是如何工作的。从表面上看，这些概念似乎令人畏惧，掌握大型语言模型 (LLMs) 功能的想法似乎难以逾越。但事实并非如此，这个原理其实任何人都可以理解。因为推动人工智能浪潮的基本原理相当简单。多年来，在运营 Anchor、在 Spotify 领导有声读物以及撰写每周时事通讯的同时，我必须找到为非技术受众提炼复杂技术概念的方法。
复制链接

扫一扫