【LLM基础】序列模型与大模型:从自回归到 LLM 的技术演化

部署运行你感兴趣的模型镜像

在这里插入图片描述

一、引言

​ 在自学大模型(LLM)的过程中,我逐渐意识到:理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂,但其底层机制其实非常简单:

LLM(如 GPT、LLaMA、Qwen)本质上是一类序列建模模型。
它的任务就是:根据前面的 token,预测下一个 token。

​ 这种预测方式在统计学中已有几十年历史,它有一个共同的名称:自回归(Autoregressive, AR)

​ 而现代 LLM(如 GPT、LLaMA、Qwen)正是:
LLM=Transformer架构+自回归训练范式 \text{LLM} = \text{Transformer架构} + \text{自回归训练范式} LLM=Transformer架构+自回归训练范式
​ 理解这层关系,有助于更好理解 Transformer 的设计动机,也能让整个 LLM 原理体系变得清晰可解释。

二、自回归模型:传统序列模型的核心思想

​ 在机器学习出现之前,序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型,包括:

  • AR(Autoregressive,自回归模型)

  • MA(Moving Average,滑动平均模型)

  • ARMA / ARIMA(在 AR 与 MA 基础上加入差分、季节性等结构)

    这类模型都围绕一个共同的思路:当前时刻的值由过去序列中的若干值共同决定。

1. AR模型

​ 在这些模型中,AR(自回归)最能体现这一思想。它的数学形式为:
xt=f(xt−1,xt−2,⋯ ,xt−k)+ϵ x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon xt=f(xt1,xt2,,xtk)+ϵ
​ 其核心特征包括:

  • 依据过去kkk个观测预测当前值kkk阶马尔可夫模型)
  • 模型结构简单、可解释性强
  • 强调序列时间依赖

​ 可以看到,AR 模型虽然结构朴素,但它所体现的“利用过去预测未来”的思想,成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer,再到现代 LLM,这一思想始终没有改变,只是模型函数f(⋅)f(·)f()从线性形式演化为更强大的神经网络结构。

三、深度学习接棒:自回归思想未变、模型更强

随着深度学习的兴起,序列任务由 RNN 一类模型接棒:RNN、LSTM、GRU。

​ 虽然模型结构变得复杂,但其训练范式保持不变:
P(xt∣x<t) P(x_t|x_{<t}) P(xtx<t)
​ 也就是说:深度学习序列模型依然是自回归模型,只是把传统的线性函数fff替换为了强大的神经网络。

​ RNN 引入循环结构,LSTM/GRU 引入门控机制来增强长程依赖能力,但底层思想仍然延续传统 AR:
过去决定现在

四、Transformer 如何成为“自回归模型”?

​ Transformer 最初是为机器翻译提出的,是一种用于建模序列关系的结构(基于注意力机制),它本身不是自回归模型。
​ 但当我们使用以下训练目标时:
max⁡∏tP(xt∣x<t) \max \prod_t P(x_t \mid x_{<t}) maxtP(xtx<t)

​ 并配合 Causal Mask(因果掩码) 限制当前 token 只能访问前文,Transformer 便被“转化”为:自回归语言模型(Autoregressive Language Model, AR LM),这也就是 GPT 的工作模式。

​ 注意力机制让模型能在任意长度上下文中建立依赖,而自回归训练方式让它能够按序生成语言。

五、自回归模型到LLM的技术演化脉络

​ 将传统模型到 LLM 的发展串起来,就是一条非常清晰的演化链:
在这里插入图片描述

​ 可以看到:LLM 并不是脱离传统 AR,而是将自回归思想推向了极致。

六、为什么现代 LLM 仍坚持自回归?

​ 虽然 LLM 能执行对话、推理、写代码等复杂任务,但其底层仍依赖一个核心训练方式:
下一个 token 预测(Next-Token Prediction, NTP) \text{下一个 token 预测(Next-Token Prediction, NTP)} 下一个 token 预测(Next-Token Prediction, NTP
​ 坚持自回归具有以下优势:

✔ 1)天然契合语言顺序

​ 语言本质上是按 token 顺序展开的,AR 与其完全吻合。

✔ 2)训练目标简单稳定

​ 无需标注数据,只需大量文本即可学习丰富语义与世界知识。

✔ 3)推理方式稳定

​ 逐 token 预测,不会出现整句预测失败的问题。

✔ 4)支持长文本生成

​ 适合对话、故事生成等场景,可在线持续生成。

​ 这些原因也是为什么 BERT 虽然强大,却不用于生成任务。

七、自回归思想对 LLM 的深层影响

​ 自回归不仅是一种训练方式,也深刻影响 LLM 的推理机制与能力边界。

1. 训练方式完全继承 AR 范式

P(xt∣x<t) P(x_t \mid x_{<t}) P(xtx<t)

​ 这是 LLM 学习语言、知识和推理能力的核心。

2. 生成方式仍是 AR

​ 生成流程如下:

  • 输入已有 tokens

  • 预测下一个 token

  • 将预测结果加入上下文,继续预测

    与传统 AR 完全一致。

3. 底层行为就是序列预测

无论 LLM 看起来多么“智能”,其本质都是:

一个极其强大的序列预测器。

大规模带来高质量预测,从而表现出“智能”般行为。

八、结语:LLM 是自回归序列模型的终极形态

​ 归根结底:LLM 没有抛弃传统序列模型,而是把“自回归”这一思想发挥到了极致。

  • Transformer 解决长程依赖

  • 大规模训练增强表达能力

  • 自回归方式保证稳定生成

    三者结合,成就了今天的大模型时代。

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

根据原作 https://pan.quark.cn/s/0ed355622f0f 的源码改编 野火IM解决方案 野火IM是专业级即时通讯和实时音视频整体解决方案,由北京野火无限网络科技有限公司维护和支持。 主要特有:私有部署安全可靠,能强大,功能齐全,全平台支持,开源率高,部署运维简单,二次开发友好,方便第三方系统对接或者嵌入现有系统中。 详细情况请参考在线文档。 主要包括一下项目: 野火IM Vue Electron Demo,演示如何将野火IM的能力集成到Vue Electron项目。 前置说明 本项目所使用的是需要付费的,价格请参考费用详情 支持试用,具体请看试用说明 本项目默认只能连接到官方服务,购买或申请试用之后,替换,即可连到自行部署的服务 分支说明 :基于开发,是未来的开发重心 :基于开发,进入维护模式,不再开发新功能,鉴于已经终止支持且不再维护,建议客户升级到版本 环境依赖 mac系统 最新版本的Xcode nodejs v18.19.0 npm v10.2.3 python 2.7.x git npm install -g node-gyp@8.3.0 windows系统 nodejs v18.19.0 python 2.7.x git npm 6.14.15 npm install --global --vs2019 --production windows-build-tools 本步安装windows开发环境的安装内容较多,如果网络情况不好可能需要等较长时间,选择早上网络较好时安装是个好的选择 或参考手动安装 windows-build-tools进行安装 npm install -g node-gyp@8.3.0 linux系统 nodej...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值