【LLM基础】序列模型与大模型：从自回归到 LLM 的技术演化

原创于 2025-11-26 09:46:29 发布 · 684 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型

LLM学习专栏收录该内容

6 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

在这里插入图片描述

一、引言

在自学大模型（LLM）的过程中，我逐渐意识到：理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂，但其底层机制其实非常简单：

LLM（如 GPT、LLaMA、Qwen）本质上是一类序列建模模型。
它的任务就是：根据前面的 token，预测下一个 token。

这种预测方式在统计学中已有几十年历史，它有一个共同的名称：自回归（Autoregressive, AR）

而现代 LLM（如 GPT、LLaMA、Qwen）正是：
$\text{LLM} = \text{Transformer架构} + \text{自回归训练范式}$
理解这层关系，有助于更好理解 Transformer 的设计动机，也能让整个 LLM 原理体系变得清晰可解释。

二、自回归模型：传统序列模型的核心思想

在机器学习出现之前，序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型，包括：

AR（Autoregressive，自回归模型）
MA（Moving Average，滑动平均模型）
ARMA / ARIMA（在 AR 与 MA 基础上加入差分、季节性等结构）

这类模型都围绕一个共同的思路：当前时刻的值由过去序列中的若干值共同决定。

1. AR模型

在这些模型中，AR（自回归）最能体现这一思想。它的数学形式为：
$x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon$
其核心特征包括：

依据过去 $k$ 个观测预测当前值（ $k$ 阶马尔可夫模型）
模型结构简单、可解释性强
强调序列时间依赖

可以看到，AR 模型虽然结构朴素，但它所体现的“利用过去预测未来”的思想，成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer，再到现代 LLM，这一思想始终没有改变，只是模型函数 $f (\cdot)$ 从线性形式演化为更强大的神经网络结构。

三、深度学习接棒：自回归思想未变、模型更强

随着深度学习的兴起，序列任务由 RNN 一类模型接棒：RNN、LSTM、GRU。

虽然模型结构变得复杂，但其训练范式保持不变：
$P(x_t|x_{<t})$
也就是说：深度学习序列模型依然是自回归模型，只是把传统的线性函数 $f$ 替换为了强大的神经网络。

RNN 引入循环结构，LSTM/GRU 引入门控机制来增强长程依赖能力，但底层思想仍然延续传统 AR：
过去决定现在。

四、Transformer 如何成为“自回归模型”？

Transformer 最初是为机器翻译提出的，是一种用于建模序列关系的结构（基于注意力机制），它本身不是自回归模型。
但当我们使用以下训练目标时：
$\max \prod_t P(x_t \mid x_{<t})$

并配合 Causal Mask（因果掩码） 限制当前 token 只能访问前文，Transformer 便被“转化”为：自回归语言模型（Autoregressive Language Model, AR LM），这也就是 GPT 的工作模式。

注意力机制让模型能在任意长度上下文中建立依赖，而自回归训练方式让它能够按序生成语言。

五、自回归模型到LLM的技术演化脉络

将传统模型到 LLM 的发展串起来，就是一条非常清晰的演化链：
在这里插入图片描述

可以看到：LLM 并不是脱离传统 AR，而是将自回归思想推向了极致。

六、为什么现代 LLM 仍坚持自回归？

虽然 LLM 能执行对话、推理、写代码等复杂任务，但其底层仍依赖一个核心训练方式：
$\text{下一个 token 预测（Next-Token Prediction, NTP）}$
坚持自回归具有以下优势：

✔ 1）天然契合语言顺序

语言本质上是按 token 顺序展开的，AR 与其完全吻合。

✔ 2）训练目标简单稳定

无需标注数据，只需大量文本即可学习丰富语义与世界知识。

✔ 3）推理方式稳定

逐 token 预测，不会出现整句预测失败的问题。

✔ 4）支持长文本生成

适合对话、故事生成等场景，可在线持续生成。

这些原因也是为什么 BERT 虽然强大，却不用于生成任务。

七、自回归思想对 LLM 的深层影响

自回归不仅是一种训练方式，也深刻影响 LLM 的推理机制与能力边界。

1. 训练方式完全继承 AR 范式

$P(x_t \mid x_{<t})$

这是 LLM 学习语言、知识和推理能力的核心。

2. 生成方式仍是 AR

生成流程如下：

输入已有 tokens
预测下一个 token
将预测结果加入上下文，继续预测

与传统 AR 完全一致。

3. 底层行为就是序列预测

无论 LLM 看起来多么“智能”，其本质都是：

一个极其强大的序列预测器。

大规模带来高质量预测，从而表现出“智能”般行为。

八、结语：LLM 是自回归序列模型的终极形态

归根结底：LLM 没有抛弃传统序列模型，而是把“自回归”这一思想发挥到了极致。

Transformer 解决长程依赖
大规模训练增强表达能力
自回归方式保证稳定生成

三者结合，成就了今天的大模型时代。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

图文对话

Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景