Transformer——Q84 贪心搜索(Greedy Search)的Token选择概率公式argmaxP(y_t|y < t) ) 推导

该问题归类到Transformer架构问题集——解码策略——自回归生成。请参考LLM数学推导——Transformer架构问题集

Q84 贪心搜索(Greedy Search)的 Token 选择概率公式 argmaxP (y_t|_{y < t}) 推导

1. 引言

在大语言模型(LLM)蓬勃发展的当下,文本生成作为其核心任务之一,受到了广泛关注。在文本生成过程中,如何从众多可能的 Token 中选择合适的 Token 以构建连贯且有意义的文本序列,是一个关键问题。贪心搜索作为一种常用的解码策略,基于公式argmaxP(y_t|_{y < t}) 进行 Token 选择决策。深入探究其背后的技术原理和数学理论,不仅有助于我们理解大语言模型的生成机制,还能为优化生成过程提供理论支持。

2. 贪心搜索技术原理与公式推导

2.1 语言模型的概率基础

语言模型本质上是对自然语言的概率分布进行建模。对于一个由 n 个 Token 组成的序列 y = [y_1, y_2, \ldots, y_n],其目标是估计该序列出现的概率 P(y)。根据概率论中的链式法则,联合概率可以分解为条件概率的乘积形式,即:

P(y) = P(y_1) \times P(y_2|y_1) \times P(y_3|y_1, y_2) \times \cdots \times P(y_n|y_1, y_2, \ldots, y_{n - 1})

这意味着生成一个完整的文本序列,是在已知前面已经生成的 Token 的基础上,依次预测下一个 Token 的概率,并将这些条件概率相乘得到整个序列的概率。

在实际的文本生成场景中,我们通常是逐个 Token 进行生成的。也就是说,在生成第 t 个 Token y_t 时,我们是基于已经生成的前 t - 1 个 Token 组成的序列 y_{<t} = [y_1, y_2, \ldots, y_{t - 1}] 来进行预测的。

2.2 贪心搜索的决策机制

贪心搜索是一种局部最优的搜索策略。它的核心思想是在每一个生成步骤中,只考虑当前步骤的最优选择,而不考虑这个选择对后续步骤的影响。具体到文本生成中,在时刻 t,贪心搜索会从所有可能的 Token 集合 V(V 表示词汇表,包含了语言模型能够生成的所有 Token)中,选择使得条件概

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值