从零开始理解大语言模型（LLM）原理（一）神经网络

最新推荐文章于 2025-03-12 14:25:51 发布

大模型RAG实战

最新推荐文章于 2025-03-12 14:25:51 发布

阅读量1k

点赞数 8

文章标签：语言模型神经网络人工智能自然语言处理大模型 ai 大语言模型

本文链接：https://blog.csdn.net/m0_59614665/article/details/145647348

版权

本篇原文来自于作者Rohit Patel的长篇雄文《Understanding LLMs from Scratch Using Middle School Math-A self-contained, full explanation to inner workings of an LLM》（用中学数学从零开始理解大型语言模型：LLM内部原理的完整全解读》）。由于中英文表达的差异以及较多的数据科学专业名词，原文中仍然有一些较晦涩与解释不清之处。因此，我们在原文翻译的基础上，进行了适当的改写与充实，以帮助大家更好的理解这篇文章。相信你如果完整阅读完本文，一定会对LLM的工作原理有崭新的认识。

本文中将从头开始讲解大语言模型（LLM）的工作原理——**假设你只会加法和乘法，也不会引用其他知识来源。我们从用纸和笔构建一个简单的神经网络模型开始，然后逐步深入，带你全面理解现代 LLM 和 Transformer 架构的所有细节。文章会尽量剥离掉机器学习中的复杂术语和行话，把所有内容还原为最简单的形式：数字。但必要时我们会解释相关术语，以便你在阅读带有术语的内容时能有所参照。

一、一个简单的神经网络

你可以把神经网络模型看作一个魔法“盒子”，放进去一些信息，会“吐出“你期望的信息。比如，放进去一张图片，输出图片的类别；放进去一段文字，输出文字的情感类别。但要注意的是，神经网络只能接受数字作为输入，也只能输出数字——没有例外。所以，设计的核心就在于如何将输入转化为数字，将输出数字解释为对目标的实现，最终构建能够处理你提供的输入信息，并生成所需输出信息的神经网络。

现在来看如何用加法与乘法构建一个能够对物体进行分类的简单神经网络。在这个模型中：

输入的信息为已知物体的数据：

颜色值（RGB 值）
体积（单位：毫升）

目标输出是物体的分类：

叶子（Leaf）
花朵（Flower）

这里有两个例子输入信息：

在这里插入图片描述

接下来，我们构建一个能够完成此分类任务的神经网络。

首先需要决定的是如何解释输入和输出，即让输入输出“数字化”。由于这里的输入已经是数字，因此可以直接送入神经网络。但输出的是类别—叶子或者花朵，而神经网络无法直接输出这些类别。因此，考虑两个方案让输出的数字和类别对应：

方案 1：输出一个数字。如果数字为正，则判断为叶子，否则判断为花朵。

方案 2：输出两个数字，分别代表叶子和花朵(的概率)，较大的数字代表分类结果。

我们选择方案 2，因为它在后续的扩展中更具通用性。以下是使用该方案的神经网络示意图：

在这里插入图片描述

在这个图中，我们输入了四个数字（色值与体积），输出了两个数字。由于输出代表叶子的数字为0.8，代表花朵的数字为0.2，所以分类结果就是叶子（0.8>0.2)。

解释图中的三个术语：

神经元/节点（Neurons/nodes）：图中圆圈内的数字。
权重（Weights）：图中连线上的数字。
层（Layers）：一组神经元被称为一层。上面的神经网络有三层：输入层（4 个神经元）、中间层（3 个神经元）和输出层（2 个神经元）。

如何计算预测结果：

假设已经训练好一个神经网络，包括上图中的层次、连线与权重、以及输入输出神经元对应的解释都已经确定与校准。
我们将4个数字（RGB与体积）输入到输入层的四个神经元。
现在开始向前传播到下一层：将神经元中的数字与连线上的权重相乘，并将结果相加，填入到下一层对应的神经元，依次类推。
计算完输出层的神经元后，较大的数字就对应分类结果。在上图中，较大的数字输出在代表叶子的神经元，所以分类结果就是“叶子”。

注意，模型本身并不理解叶子、花朵或 RGB 和体积的含义。它的任务仅仅是接收 4 个数字作为输入，输出 2 个数字。我们根据自己的解释，将输入视为 RGB 和体积，将输出视为叶子或花朵的概率。这种解释完全由我们决定，而模型的任务只是通过合适的权重将输入映射到最后的输出。

有趣的是，我们可以用同一个神经网络处理完全不同的任务。比如，输入云量、湿度等 4 个数字，输出“晴天”或“雨天”的概率。如果权重校准得当，那么这个神经网络就可以同时完成叶子/花朵分类和天气预测的任务！神经网络只会输出两个数字，至于如何解释这些数字，完全由我们决定。

一些被省略的复杂细节：

1. 激活层 (Activation Layer)

含义：

激活层是神经网络中不可缺少的一部分，它对每个神经元的输出值应用一个非线性函数，使得它能够处理更复杂的问题。激活函数常用的有 ReLU (Rectified Linear Unit)，它的规则很简单：

如果输入值是负数，输出设置为 0。
如果输入值是正数，输出保持不变。

上图例子：

在之前的神经网络中，我们有一个中间层的神经元值，比如：

一个神经元的值是 -26.6，另一个是 -47.1。

如果我们使用 ReLU 激活函数，这两个值会被替换为 0，因为它们都是负数。在应用 ReLU 激活函数后，神经网络的计算会继续向前传播，使用这些修改后的值来计算下一层的神经元值。

为什么需要激活层：

如果没有激活层，神经网络的所有计算（加法和乘法）实际上可以被简化为一个简单的线性计算公式（看下面的例子）。即输出层的每个神经元的值可以直接用输入层神经元值加权求和得到，而不需要额外的中间层。
激活层通过引入非线性，使得网络能够学习和拟合更复杂的关系，比如曲线分类问题，而不仅仅是简单的线性分类。

没有激活层的例子：

如果没有激活层，输出层绿色节点的值可以直接表示为输入层的加权求和，比如：

(0.10 * -0.17 + 0.12 * 0.39 - 0.36 * 0.1) x R + (-0.29 * -0.17 - 0.05 * 0.39 - 0.21* 0.1) x G + ……

最终整个网络可以被简化成两层，失去了中间层的意义。