动手学PyTorch | (55) 束搜索

上⼀节介绍了如何训练输入和输出均为不定⻓序列的编码器—解码器。本节我们介绍如何使用编码器—解码器来预测不定⻓长的序列。

上⼀节里已经提到,在准备训练数据集时,我们通常会在样本的输⼊序列和输出序列后⾯分别附上⼀个特殊符号"<eos>"表示序列的终止。我们在接下来的讨论中也将沿用上一节的全部数学符号。为了便于讨论,假设解码器的输出是一段⽂本序列。设输出⽂本词典 (包含特殊符号"<eos>")的⼤小为Y , 输出序列的最大长度为T' 。所有可能的输出序列一共有O(|Y|^{T'})种。这些输出序列中所有特殊符号" <eos>"后⾯的⼦序列将被舍弃。

目录

1. 贪婪搜索

2. 穷举搜索

3. 束搜索

4. 小结


1. 贪婪搜索

让我们先来看一个简单的解决⽅案:贪婪搜索(greedy search)。对于输出序列任一时间步t',我们从|Y|个词中搜索出条件概率最⼤的词:

作为输出。⼀旦搜索出"<eos>"符号,或者输出序列长度已经达到了最大长度 T',便完成输出。

我们在描述解码器时提到,基于输入序列⽣成输出序列的条件概率是:

我们将该条件概率最大的输出序列称为最优输出序列。而贪婪搜索的主要问题是不能保证得到最优输出序列。(在每一步上是最优的,不能保证对整体也是最优的)。

下⾯来看⼀个例子。假设输出词典⾥⾯有“A”“B”“C”和“<eos>”这4个词。下图中每个时间步下的4个数字分别代表了该时间步⽣成“A”“B”“C”和“<eos>”这4个词的条件概率。在每个时间步,贪婪搜索选取条件概率最大的词。因此,下图中将⽣成输出序列“A”“B”“C”“<eos>”。该输出序列的条件概率是0.5*0.4*0.4*0.6=0.048.

接下来,观察下图演示的例子。与上图中不同,下在时间步2中选取了(当前时间步)条件概率第二⼤的词“C”。由于时间步3所基于的时间步1和2的输出⼦序列由图上中的“A”“B”变为了下图中的“A”“C”,下图中时间步3⽣成各个词的条件概率发生了变化。我们选取条件概率最大的词“B”。此时间步4所基于的前3个时间步的输出⼦序列为“A”“C”“B”,与上图中的“A”“B”“C”不同。因此,下图中时间步4生成各个词的条件概率也与上图中的不同。我们发现,此时的输出序列“A”“C”“B”“<eos>”的条件概率是0.5*0.3*0.6*0.6=0.054,⼤于贪婪搜索得到的输出序列的条件概率。因此,贪婪搜索得到的输出序列“A”“B”“C”“<eos>”并非最优输出序列。

 

2. 穷举搜索

如果⽬标是得到最优输出序列,我们可以考虑穷举搜索(exhaustive search):穷举所有可能的输出序列,输出条件概率最大的序列。

虽然穷举搜索可以得到最优输出序列,但他的计算开销O(|Y|^{T'})过大。例如,当|Y|=10000且T'=10时,我们将评估10000^{10}个序列:这⼏乎不可能完成。⽽贪婪搜索的计算开销是O(|Y|{T'}),通常显著⼩于穷举搜索的计算开销。例如,当|Y|=10000且T'=10时,我们只需评估10^5个序列。

3. 束搜索

束搜索(beam search)是对贪婪搜索的一个改进算法。它有一个束宽(beam size)超参数。我们将它设为k。在时间步1时,选取当前时间步条件概率最大的k个词,分别组成 k个候选输出序列的⾸词。在之后的每个时间步,基于上个时间步的k个候选输出序列,从k|Y|个可能的输出序列中选取条件概率最大的k个,作为该时间步的候选输出序列。最终,我们从各个时间步的候选输出序列中筛选出包含特殊符号“<eos>”的序列,并将它们中所有特殊符号“<eos>”后面的⼦序列舍弃,得到最终候选输出序列的集合。

上图通过⼀个例子演示了束搜索的过程。假设输出序列的词典中只包含5个元素,即Y={A,B,C,D,E},且其中一个是特殊符号<eos>.设束搜索的束宽等于2,输出序列最⼤⻓度为3。在输出序列的时间步1时,假设条件概率P(y_1|c)最大的两个词为A和C。我们在时间步2时将对所有的y_2 \in Y都分别计算P(y_2|A,c),P(y_2|C,c),并从计算出的10个条件概率中取最大的2个,假设为P(B|A,c)和P(E|C,c).那么,我们在时间步3时将对所有的y_3 \in Y都分别计算P(y_3|A,B,c),P(y_3|C,E,c),并从计算出的10个条件概率中取最⼤的2个,假设为P(D|A,B,c)和P(D|C,E,c).如此⼀来,我们得到6个候选输出序列:A;C;AB;CE;ABD;CED.接下来,我们将根据这6个序列得出最终候选输出序列的集合。

在最终候选输出序列的集合中,我们取以下分数最高的序列作为输出序列:

其中L为最终候选序列⻓度,\alpha⼀般可选为0.75。分⺟上的L^\alpha是为了惩罚较长序列在以上分数中较多的对数相加项。分析可知,束搜索的计算开销为  O(k|Y|{T'}).这介于贪婪搜索和穷举搜索的计算开销之间。此外,贪婪搜索可看作是束宽为1的束搜索。束搜索通过灵活的束宽来权衡计算开销和搜索质量。

4. 小结

1)预测不定长序列的⽅法包括贪婪搜索、穷举搜索和束搜索。

2)束搜索通过灵活的束宽来权衡计算开销和搜索质量。

 

 

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值