大模型推理常见采样策略总结：贪心解码， Beam Search, Top-k, Top-p, Temperature等

samoyan

已于 2024-05-16 10:30:39 修改

阅读量3.7k

点赞数 13

分类专栏： LLM 面试文章标签：大模型

于 2024-04-11 10:50:16 首次发布

本文链接：https://blog.csdn.net/baoyan2015/article/details/137630742

版权

43 篇文章

订阅专栏

Beam Search 是一种启发式图搜索算法，用于在序列预测问题中，特别是在自然语言处理中生成文本时。它扩展了贪心搜索的概念，通过保持一定数量（称为“束宽”）的最佳候选解决方案来进行搜索，然后在每个步骤中探索这些候选解的后续步骤。

实现	在每一步，算法都会为每个候选序列生成所有可能的下一个步骤，并选择概率最高的前N个序列，其中N是束宽。
优点	能够找到比贪心解码更优的结果。通过调整束宽，可以在解的质量与计算复杂度之间进行权衡。
缺点	随着序列长度的增加，计算量呈指数级增长。有可能错过全局最优解，因为它只关注局部最优解。

贪心解码是一种简单直接的解码策略，它在每一步都选择概率最高的下一个词。

实现	在每一步，从模型预测的词汇分布中选择具有最高概率的词作为输出。
优点	计算速度快，因为每步只选择一个最佳选项。
缺点	很容易陷入局部最优解，不一定能找到全局最优解。

Top-k Sampling 是一种随机采样策略，它从模型预测的词汇分布中选择概率最高的k个词，然后基于这些词的概率分布随机选择下一个词。

实现	在每一步，先确定一个k值，然后从概率最高的k个词中随机选择下一个词。
优点	通过引入随机性，可以避免贪心解码的局部最优问题。
缺点	k的选择可能会影响生成文本的质量。

Top-p Sampling，也称为Nucleus Sampling，是一种更加精细的采样策略，它选择累计概率超过某个阈值p的最小集合，然后从这个集合中随机采样。

实现	选择一个概率阈值p，然后从累积分布中选择一个最小的词集合，使得这个集合的累积概率至少为p，随机选择下一个词。
优点	能够生成更加多样化且连贯的文本。
缺点	对于p的选择敏感，可能需要根据具体应用进行调整。

Temperature 是用来控制采样过程中随机性的超参数。较低的温度值会使得模型倾向于选择概率较高的词，而较高的温度值会增加低概率词被选中的机会，从而增加生成文本的多样性。

实现	通过将模型的输出概率分布除以温度值，并应用Softmax函数进行归一化，来调整每个词被选中的概率。
优点	通过调整温度值，可以平衡确定性和多样性之间的关系。
缺点	需要仔细选择温度值，否则可能导致生成文本过于随机或过于重复。