集束搜索（beam search）

最新推荐文章于 2022-05-12 11:57:31 发布

灯塔先生

最新推荐文章于 2022-05-12 11:57:31 发布

阅读量1.7k

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/qq_40722284/article/details/89481105

版权

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基本的集束搜索算法

解决的问题

寻找一个最接近原意的结果

过程

第一步，找到第一个输出y的概率值。其中考虑一个概念--集束宽（beam width，简称bw）,表示在每一步中有多少选择。

执行过程是，将法语句子输入到编码网络，然后解码网络，softmax层会输出10,000个输出概率值，然后取bw个单词保存起来。（即保存前bw个值）。

第二步，在第一步选出的单词作为第一个，然后考虑第二个单词是什么，这个时候需要将第一个输出重新输入进来，然后考虑最可能的第一个和第二个单词对，不仅仅是第二个单词有最大的概率，而是第一个、第二个单词对有最大的概率。假设集束宽为 3，并且词汇表里有 10,000 个单词，那么最终我们会有 3 乘以 10,000 也就是 30,000 个可能的结果。

按条件概率准则，表示成第一个单词的概率乘以第二个单词的概率。

如果集束搜索找到了第一个和第二个单词对最可能的三个选择是“inSeptember”或者“jane is”或者“jane visits”，这就意味着我们去掉了 september 作为英语翻译结果的第一个单词的选择，所以我们的第一个单词现在减少到了两个可能结果。根据y1,y2的对待选择前三个最大的概率值，来考虑第三步的选择。依次下去，直到终止句尾符号。

如果集束宽等于 1，只考虑 1 种可能结果，这实际上就变成了贪婪搜索算法。

改进的集束搜索算法

长度归一化(Length normalization)

之前的束搜索算法就是最大化这个概率 $P\left(y^{<1>} \ldots y^{<T_{y}> } | X\right)= P\left(y^{<1>} | X\right) P\left(y^{<2>} | X, y^{<1>}\right) P\left(y^{<3>} | X, y^{<1>}, y^{<2}\right) \ldots P\left(y^{<T_{y}>} | X, y^{<1>}, y^{<2>} \ldots y^{<T_{y}-1>}\right)$