2020-11-19 吴恩达DL学习-C5 序列模型-W3 序列模型和注意力机制(3.4 改进定向搜索-长度归一化,称为归一化的对数似然目标函数。取每个单词的概率对数值的平均。非精确搜索,速度快)

本文介绍了深度学习序列模型中束搜索算法的改进,特别是长度归一化技术,用于避免数值下溢并提高翻译质量。通过对概率取对数和归一化,算法能更好地平衡句子长度,避免过度偏好较短的翻译结果。束搜索的束宽选择也是关键,较大的束宽可能导致更好的结果但计算成本增加。
摘要由CSDN通过智能技术生成

1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文):http://www.ai-start.com/dl2017/
3.github课件+作业+答案:https://github.com/stormstone/deeplearning.ai

3.4 改进定向搜索 Fefinements to beam search

上节课中, 你已经学到了基本的束搜索算法(the basic beam search algorithm),这节课里,我们会学到一些技巧, 能够使算法运行的更好。

长度归一化(Length normalization)就是对束搜索算法稍作调整的一种方式,帮助你得到更好的结果,下面介绍一下它。
在这里插入图片描述

上节课讲到束搜索就是最大化上图这个概率。
这个乘积就是 P ( y < 1 > . . . y < T y > ∣ x ) P(y^{<1>}...y^{<T_y>}|x) P(y<1>...y<Ty>x),可以表示成:
P ( y < 1 > . . . y < T y > ∣ x ) = P ( y < 1 > ∣ x ) P ( y < 2 > ∣ x , y < 1 > ) P ( y < 3 > ∣ x , y < 1 > , y < 2 > ) . . . P ( y < T y > ∣ x , y < 1 > , y < 2 > . . . y < T y − 1 > ) P(y^{<1>}...y^{<T_y>}|x)=P(y^{<1>}|x)P(y^{<2>}|x,y^{<1>}) P(y^{<3>}|x,y^{<1>},y^{<2>})...P(y^{<T_y>}|x,y^{<1>},y^{<2>}...y^{<T_y-1>}) P(y<1>...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值