《动手学深度学习 Pytorch版》 9.8 束搜索

AncilunKiang

于 2023-10-21 15:18:10 发布

阅读量361

点赞数 2

分类专栏：《动手学深度学习 Pytorch版》学习笔记文章标签：深度学习 pytorch 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43941037/article/details/133961798

版权

《动手学深度学习 Pytorch版》学习笔记专栏收录该内容

65 篇文章 31 订阅

订阅专栏

本节将介绍几大：

贪心搜索（greedy search）策略
穷举搜索（exhaustive search）
束搜索（beam search）

9.8.1 贪心搜索

贪心搜索已用于上一节的序列预测。对于输出序列的每一时间步 $t^{'}$ ，都从 $\boldsymbol{Y}$ 中找到具有最高条件概率的词元，即：

$y_{t'}=\mathop{\arg\max}\limits_{y\in\boldsymbol{Y}}{P(y|y_1,\dots,y_{t-1},\boldsymbol{c})}$

一旦输出序列包含了“<eos>”或者达到其最大长度 $T^{'}$ ，则输出完成。

在这里插入图片描述

问题：

最优序列应该是最大化值的输出序列，而贪心搜索无法保证得到最优序列。
每次选择都会影响后续的所有结果。

9.8.2 穷举搜索

穷举搜索（exhaustive search）穷举地列举所有可能的输出序列及其条件概率，然后计算输出条件概率最高的一个。其计算量 $O(\boldsymbol{Y}^{T'})$ 可能高的惊人。

9.8.3 束搜索

穷举搜索有精度优势，贪心搜索有计算成本优势，而束搜索则介于这两个极端之间。

束搜索（beam search）是贪心搜索的一个改进版本。它有一个超参数，名为束宽（beam size） $k$ 。在时间步 1，我们选择具有最高条件概率的 $k$ 个词元。这 $k$ 个词元将分别是 $k$ 个候选输出序列的第一个词元。在随后的每个时间步，基于上一时间步的 $k$ 个候选输出序列，继续从 $k$ 个可能的选择中挑出具有最高条件概率的 $k$ 个候选输出序列。

最后，选择其中条件概率乘积最高的序列作为输出序列。

在这里插入图片描述

练习

（1）我们可以把穷举搜索看作一种特殊的束搜索吗？为什么？

可以看作束宽拉满的束搜索。

（2）在 9.7 节的机器翻译问题中应用束搜索。束宽是如何影响预测的速度和结果的？

束搜索需要的计算更多，肯定是越宽越慢。

（3）在 8.5 节中，我们基于用户提供的前缀，通过使用语言模型来生成文本。这个例子中使用了哪种搜索策略？可以改进吗？

上束搜索。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《动手学深度学习 Pytorch版》 9.8 束搜索

本节将介绍几大：贪心搜索（greedy search）策略穷举搜索（exhaustive search）束搜索（beam search）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。