该问题归类到Transformer架构问题集——解码策略——自回归生成。请参考LLM数学推导——Transformer架构问题集。
Q84 贪心搜索(Greedy Search)的 Token 选择概率公式
推导
1. 引言
在大语言模型(LLM)蓬勃发展的当下,文本生成作为其核心任务之一,受到了广泛关注。在文本生成过程中,如何从众多可能的 Token 中选择合适的 Token 以构建连贯且有意义的文本序列,是一个关键问题。贪心搜索作为一种常用的解码策略,基于公式 进行 Token 选择决策。深入探究其背后的技术原理和数学理论,不仅有助于我们理解大语言模型的生成机制,还能为优化生成过程提供理论支持。
2. 贪心搜索技术原理与公式推导
2.1 语言模型的概率基础
语言模型本质上是对自然语言的概率分布进行建模。对于一个由 n 个 Token 组成的序列 ,其目标是估计该序列出现的概率
。根据概率论中的链式法则,联合概率可以分解为条件概率的乘积形式,即:
这意味着生成一个完整的文本序列,是在已知前面已经生成的 Token 的基础上,依次预测下一个 Token 的概率,并将这些条件概率相乘得到整个序列的概率。
在实际的文本生成场景中,我们通常是逐个 Token 进行生成的。也就是说,在生成第 t 个 Token 时,我们是基于已经生成的前 t - 1 个 Token 组成的序列
来进行预测的。
2.2 贪心搜索的决策机制
贪心搜索是一种局部最优的搜索策略。它的核心思想是在每一个生成步骤中,只考虑当前步骤的最优选择,而不考虑这个选择对后续步骤的影响。具体到文本生成中,在时刻 t,贪心搜索会从所有可能的 Token 集合 V(V 表示词汇表,包含了语言模型能够生成的所有 Token)中,选择使得条件概