Physics of Language Models学习小结

最新推荐文章于 2025-06-10 16:59:45 发布

wanxueyao

最新推荐文章于 2025-06-10 16:59:45 发布

阅读量1.7k

点赞数 30

文章标签：语言模型学习人工智能

本文链接：https://blog.csdn.net/wanxueyao/article/details/141103429

版权

1.概述

Physics of Language Models

参考：https://zhuanlan.zhihu.com/p/711391378

这是一系列论文和一个新的LLM研究方向，官网的概述如下。

苹果掉落，盒子移动，但重力和惯性等普遍规律对技术进步至关重要。虽然GPT-5或LLaMA-3明天可能会提供革命性的体验，但我们必须更进一步。我们的目标是为LLM建立普适规律，这些规律可以指导我们，并就我们如何最终实现AGI提供实际建议。

作者的建议是将“智能”的概念划分为多个维度（如结构、知识、推理等）。对于每个维度，创建合成数据，并为LLM培训构建一个理想化的环境，以了解理论，并将LLM在这个维度的能力推向极致。通过进行大量对照实验，发现所有LLM的普适规律，而不仅仅是GPT-4的特定版本。

在受控、理想化的环境中训练LLM能够管理数据并调整超参数（如数据量、类型、难度和格式），以科学地确定影响LLM性能的因素，并提出改进建议。

通过将“智能”分解为可管理的组件，每个组件都使用具有受控大小和难度的合成数据。这样就能够在足够多样的条件下反复训练许多小型模型，以初步识别规律，然后更广泛地测试它们。

2. Part 1 层级语言结构

2.1 概述

对这部分进行概括的话就如摘要所说设计了受控实验来研究生成式语言模型（如 GPT）如何学习上下文自由语法（CFG）。

上下文无关文法（Context-Free Grammar，CFG）是一种用于描述语言结构的形式语法，广泛应用于自然语言处理、编译原理等领域。CFG由一组产生式规则组成，这些规则定义了语言的语法结构。在CFG中，每个产生式规则具有形式“A → α”，其中A是非终结符，α是终结符或非终结符的序列1。CFG的主要特点是，非终结符可以被替换为其他符号的序列，而这种替换可以在任何时候应用，以生成符合语法的字符串。

语言中的许多结构都可以被视为 CFG，包括语法、代码结构、数学表达式、音乐模式、文章格式（用于诗歌、指令、法律文档）等。

下面是一个简单的上下文无关文法（CFG）的例子，用于描述一个算术表达式的语言，这个语言包括加法和乘法操作，以及整数和变量（假设变量以大写字母表示）。

```
G = (N, Σ, P, S)

N = {E, T, F} // 非终结符集合
Σ = {+, *, (, ), 0, 1, 2, ..., 9, A, B, C, ...} // 终结符集合，包括数字和字母

P = {
E → T E_op // 表达式可以由项和操作符组成
T → F T_op // 项可以由因子和操作符组成
F → ( E ) // 分量可以是括号内的表达式
F → num // 分量可以是一个数字
F → id // 分量也可以是一个标识符（变量）
E_op → + T // 表达式的操作符可以是加号后跟一个项
E_op → - T // 或者是减号
T_op → * F // 项的操作符可以是乘号后跟一个因子
T_op → / F // 或者是除号
num → 0 // 数字可以是0
num → 1 // 可以是1
// ... 以此类推，直到9
id → A // 标识符可以是A
id → B // 可以是B
// ... 以此类推，包括所有大写字母
}

S = E // 开始符号是表达式E
```

在这个CFG中，我们定义了以下规则：

- `E` 代表一个表达式（Expression），它可以是一个项（`T`）后面跟着一个表达式操作符（`E_op`）。
- `T` 代表一个项（Term），它可以是一个因子（`F`）后面跟着一个项操作符（`T_op`）。
- `F` 代表一个因子（Factor），它可以是一个括号内的表达式，或者是一个数字（`num`）或一个标识符（`id`）。
- `E_op` 定义了表达式操作符可以是加号（`+`）或减号（`-`），后面跟着一个项（`T`）。
- `T_op` 定义了项操作符可以是乘号（`*`）或除号（`/`），后面跟着一个因子（`F`）。
- `num` 定义了数字可以是0、1、2一直到9。
- `id` 定义了标识符可以是任意的大写字母。

使用这个CFG，我们可以生成和解析如下形式的算术表达式：

- `A + B * 2`
- `(3 + 5) * C - D`
- `X / (Y * 4 - Z)`

这个CFG是上下文无关的，因为非终结符的替换（推导）不依赖于周围的符号，只依赖于自身的规则。

2.2 实验设置

模型——将普通 GPT2 -small（12 层、12 头、768 维）表示为 GPT

由于其绝对位置嵌入而导致性能较弱，我们实现了两种现代变体。我们将具有相对位置注意力的GPT表示为GPT𝗋𝖾𝗅，并将具有旋转位置嵌入的GPT表示GPT𝗋𝗈𝗍。

GPT𝗉𝗈𝗌 将注意力矩阵替换为仅基于标记相对位置的矩阵，而 GPT𝗎𝗇𝗂 使用来自不同窗口长度的过去标记的恒定、统一平均值作为注意矩阵。

硬数据集𝖼𝖿𝗀𝟥𝖻,𝖼𝖿𝗀𝟥𝗂,𝖼𝖿𝗀𝟥𝗁,𝖼𝖿𝗀𝟥𝗀,𝖼𝖿𝗀𝟥𝖿的大小为(1,3,3,3,3,3,3)并且难度不断增加𝖼𝖿𝗀𝟥𝖻<𝖼𝖿𝗀𝟥𝗂<𝖼𝖿𝗀𝟥𝗁<𝖼𝖿𝗀𝟥𝗀<𝖼𝖿𝗀𝟥𝖿。简单数据集 𝖼𝖿𝗀𝟥𝖾𝟣 和 𝖼𝖿𝗀𝟥𝖾𝟤 的大小分别为 (1,3,9,27,81,27,9) 和 (1,3,9,27,27,9,4)。这些 CFG 生成的序列长度可达 3的6次幂=729。