Beam Search 原理详解

SmallerFL

于 2024-07-26 16:49:46 发布

阅读量486

点赞数 11

分类专栏： NLP&机器学习文章标签： llm nlp beam search gpt

本文链接：https://blog.csdn.net/qq_36803941/article/details/140694438

版权

NLP&机器学习专栏收录该内容

68 篇文章 6 订阅

订阅专栏

文章目录

1. 前言
2. 原理
3. 举例
4. 参考

1. 前言

Beam Search 是一种启发式图搜索算法，用于在图或树的搜索过程中寻找最有可能的路径。它常用于自然语言处理（NLP）中的序列生成任务，如机器翻译、语音识别和文本生成等。与穷举搜索（如广度优先搜索）不同，Beam Search 通过限制搜索过程中的候选节点数量来提高效率，从而在保证搜索质量的同时减少计算资源的消耗。

2. 原理

Beam Search 的核心思想是维护一个固定大小的候选列表（称为 beam），在每一步中，算法只保留最有可能的几个候选节点，而不是考虑所有可能的节点。这个“最有可能”的判断通常基于节点的累积得分，该得分是节点从起始点到当前节点路径的得分之和。

以下是 Beam Search 的基本步骤：

初始化：将起始节点（通常是序列的开始标记）加入到候选列表中，并将其得分设为0。
扩展节点：对于候选列表中的每个节点，生成所有可能的后继节点，并计算每个后继节点的得分。
选择和更新：根据得分，从所有生成的后继节点中选择得分最高的 beam 个节点，将它们加入到候选列表中，并更新它们的得分。
终止条件：重复步骤2和3，直到达到预设的终止条件，例如达到序列的最大长度，或者候选列表中没有新的节点生成。
选择最终结果：从候选列表中选择得分最高的节点作为搜索结果。

Beam Search 的关键参数是 beam 的宽度，即在每一步中保留的候选节点数量。beam 的宽度越大，搜索过程越接近穷举搜索，计算成本也越高；beam 的宽度越小，搜索过程越快，但可能丢失一些好的候选节点。

在实际应用中，Beam Search 已被证明是一种有效的搜索策略，特别是在处理具有大量可能输出的复杂序列生成任务时。通过调整 beam 的宽度，可以在搜索质量和计算效率之间取得平衡。

3. 举例

下面是 Beam Search 生成句子的具体例子，从 start token 开始，最终生成 the green witch arrived：
在这里插入图片描述
Beam Search 不是在每个时间步选择最佳的生成词元，而是在每一步保留 k（束宽 beam width) 个可能的词元，k 可以根据需要调整得更宽或更窄。