Transformer——Q84 贪心搜索（Greedy Search）的Token选择概率公式argmaxP(y_t|y ＜ t) ) 推导

墨顿

于 2025-05-15 00:46:48 发布

阅读量924

点赞数 19

文章标签： transformer 深度学习人工智能解码策略自回归生成

本文链接：https://blog.csdn.net/pzccool/article/details/147951546

版权

该问题归类到Transformer架构问题集——解码策略——自回归生成。请参考LLM数学推导——Transformer架构问题集。

Q84 贪心搜索（Greedy Search）的 Token 选择概率公式 $argmaxP (y_t|_{y < t})$ 推导

1. 引言

在大语言模型（LLM）蓬勃发展的当下，文本生成作为其核心任务之一，受到了广泛关注。在文本生成过程中，如何从众多可能的 Token 中选择合适的 Token 以构建连贯且有意义的文本序列，是一个关键问题。贪心搜索作为一种常用的解码策略，基于公式 $argmaxP(y_t|_{y < t})$ 进行 Token 选择决策。深入探究其背后的技术原理和数学理论，不仅有助于我们理解大语言模型的生成机制，还能为优化生成过程提供理论支持。

2. 贪心搜索技术原理与公式推导

2.1 语言模型的概率基础

语言模型本质上是对自然语言的概率分布进行建模。对于一个由 n 个 Token 组成的序列 $y = [y_1, y_2, \ldots, y_n]$ ，其目标是估计该序列出现的概率 $P(y)$ 。根据概率论中的链式法则，联合概率可以分解为条件概率的乘积形式，即：

$P(y) = P(y_1) \times P(y_2|y_1) \times P(y_3|y_1, y_2) \times \cdots \times P(y_n|y_1, y_2, \ldots, y_{n - 1})$

这意味着生成一个完整的文本序列，是在已知前面已经生成的 Token 的基础上，依次预测下一个 Token 的概率，并将这些条件概率相乘得到整个序列的概率。

在实际的文本生成场景中，我们通常是逐个 Token 进行生成的。也就是说，在生成第 t 个 Token $y_t$ 时，我们是基于已经生成的前 t - 1 个 Token 组成的序列 $y_{<t} = [y_1, y_2, \ldots, y_{t - 1}]$ 来进行预测的。

2.2 贪心搜索的决策机制

贪心搜索是一种局部最优的搜索策略。它的核心思想是在每一个生成步骤中，只考虑当前步骤的最优选择，而不考虑这个选择对后续步骤的影响。具体到文本生成中，在时刻 t，贪心搜索会从所有可能的 Token 集合 V（V 表示词汇表，包含了语言模型能够生成的所有 Token）中，选择使得条件概

最低0.47元/天解锁文章