BeamSearch计算过程和代码实现

浅白Coder

已于 2024-02-13 09:40:25 修改

阅读量996

点赞数 24

分类专栏：自然语言处理文章标签：自然语言处理深度学习人工智能神经网络

于 2024-02-06 20:09:21 首次发布

本文链接：https://blog.csdn.net/Xbusiwang/article/details/136061718

版权

自然语言处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文深入探讨了束搜索算法，一种用于序列生成任务的关键技术，如机器翻译，通过束宽度控制搜索效率，平衡多样性和计算成本。

摘要由CSDN通过智能技术生成

Beam search（束搜索）是一种用于生成序列的搜索算法，常用于序列生成任务，例如机器翻译、语音识别和文本生成。它是一种启发式算法，旨在在生成序列时平衡搜索空间的广度和深度。

Beam search使用一个参数称为"beam width"（束宽度）来控制搜索的宽度，即在每个时间步骤选择保留的最有希望的候选项数量。在每个时间步骤，Beam search保留最有希望的K个候选项，其中K是束宽度。

下面是Beam search算法的详细步骤：

初始化：将初始输入作为序列的起始点，并将其放入候选项列表中。
生成候选项：对于每个候选项，使用模型（例如神经网络）生成下一个可能的元素或单词。
扩展候选项：对于每个候选项，将生成的元素添加到当前序列中，并计算相应的分数或概率。这些分数用于评估候选项的好坏。
剪枝：根据分数或概率对候选项进行排序，并选择当前分数最高的K个候选项，将其保留为下一步的候选项。
终止条件：如果生成的序列达到了预定的长度，或者满足特定的终止条件（例如遇到了终止标记），则停止搜索。
重复步骤2至5，直到到达终止条件。
返回结果：从最终的K个候选项中选择得分最高的序列作为最终的输出。

Beam search的优点是可以在生成序列时保持一定的多样性，因为它保留了多个候选项，并在每个时间步骤维护了一个较小的搜索空间。这有助于避免过于确定性的结果，并提供更多选择的可能性。

然而，Beam search也存在一些限制。它可能会陷入局部最优解，因为它只考虑了当前时间步骤的最有希望的候选项，并没有全局优化。此外，束宽度的选择也会影响结果，较小的束宽度可能会导致搜索空间不足，而较大的束宽度会增加计算成本。

算法关键点：在解码过程中，每次都挑选当前解码字的前k个最大概率的字符，第一轮可以得到k个结果，第二轮可以k2个结果，然后在这k2个结果中选择前k个最大概率的结果。依次类推...

具体步骤：

1.初始化Result列表用来存储每次得到的最大k个概率结果，初始化为[[list(),1]] 1为当前初始化的成绩

2.遍历解码长度S（解码出来S个字）,

3.编历Result，用来为每个当前为止的最大k个结果解码出候选集

4.每个解码出的k个结果统一存储在Condidate列表中

5.按照成绩选取前k个作为Result，继续遍历，直到解码出S长度或者<eos>

from math import log
from numpy import array
from numpy import argmax

# 集束搜索
def beam_search_decoder(data, k):
	sequences = [[list(), 1.0]]#初始化存储最后结果的列表，存储k个
	# 遍历序列中的每一步
	for row in data:#序列的最大长度
		all_candidates = list()
		# 扩展每个候选项，即解码当前所得序列的下一个字
		for i in range(len(sequences)):
			seq, score = sequences[i]
			for j in range(len(row)):#计算每个词表中的字的成绩
				candidate = [seq + [j], score * -log(row[j])]
				all_candidates.append(candidate)
		# 根据分数排列所有候选项
		ordered = sorted(all_candidates, key=lambda tup:tup[1])
		# 选择k个最有可能的
		sequences = ordered[:k]
	return sequences

# 定义一个由10个单词组成的序列，单词来自于大小为5的词汇表
data = [[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1],
		[0.1, 0.2, 0.3, 0.4, 0.5],
		[0.5, 0.4, 0.3, 0.2, 0.1]]
data = array(data)
# 解码输出序列
result = beam_search_decoder(data, 3)
# 打印结果

for seq in result:
	print(seq)