NLP自然语言处理集束搜索(beam search)和贪心搜索(greedy search)

本文链接：https://blog.csdn.net/hxxjxw/article/details/108094659

本文探讨了自然语言处理中集束搜索（BeamSearch）与贪心搜索（GreedySearch）两种算法，详细解析了它们在机器翻译与语音识别系统中的应用，以及如何通过集束宽度调整搜索效率与结果质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLP 自然语言处理集束搜索beam search和贪心搜索greedy search_青盏的博客-CSDN博客

集束搜索（beam search）和贪心搜索（greedy search）_小小鸟要高飞的博客-CSDN博客

集束搜索

集束搜索是一种启发式图搜索算法。

集束搜索属于贪心算法，不能保证一定能够找到全局最优解，因为考虑到搜索空间太大，而采用一个相对的较优解。而维特比算法在字典大小较小时能够快速找到全局最优解。

集束搜索使用广度优先策略建立搜索树，在树的每一层，按照启发代价对节点进行排序，然后仅留下预先确定的个数（Beam Width-集束宽度）的节点，仅这些节点在下一层次继续扩展，其他节点就被剪掉了。如果集束宽度无穷大，那该搜索就是宽度优先搜索。

示例

贪心搜索

如图，Decoder根据Encoder的中间语义编码向量cc和<s>标签得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1]，选择概率最大的0.4，即moi。

根据隐向量h1和moi得到第二个输出的概率分布[0.1,0.1,0.1,0.1,0.6]，选择概率最大的0.6，即suis。

以此类推，直到遇到<\s>标签，得到最终的序列moi suis étudiant。

集束搜索

上面的贪心搜索只选择了概率最大的一个，而集束搜索则选择了概率最大的前k个。这个k值也叫做集束宽度（Beam Width）。

还是以上面的例子作为说明，k值等于2，则集束搜索的过程如下图：

得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1][0.1,0.1,0.3,0.4,0.1]，选择概率最大的前两个，0.3和0.4，即Je和moi。

然后Je和moi分别作为Decoder的输入，得到两个概率分布，然后再选择概率和最大的前两个序列，0.3+0.8和0.4+0.6，即Je suis和moi suis。

以此类推，最终可以得到两个序列，即Je suis étudiant和moi suis étudiant，很明显前者的概率和最大，为2.2，所以这个序列是最终得到的结果。

集束搜索本质上也是贪心的思想，只不过它考虑了更多的候选搜索空间，因此可以得到更多的翻译结果。

应用

Beam Search（集束搜索）多用在一些大型系统中，比如机器翻译系统，语音识别系统等，因为这些系统中的数据集可能非常大，而且结果也没有唯一正确的解，系统用最快的方式找到最接近正确的解才是系统的目标。

如解码是seq2seq模型的常见问题，常用方法有贪心搜索（Greedy Search）集束搜索（Beam Search）。