吴恩达Coursera深度学习课程 deeplearning.ai (5-3) 序列模型和注意力机制--课程笔记

本文详细介绍了吴恩达的Coursera深度学习课程中关于序列模型和注意力机制的内容,包括sequence to sequence模型在机器翻译和图片描述中的应用,集束搜索算法的优化方法,如长度归一化和选择合适的集束宽度,以及注意力模型在语音识别中的应用。此外,还讨论了BLEU得分和触发字检测等关键概念。
摘要由CSDN通过智能技术生成

3.1 基础模型

sequence to sequence

sequence to sequence:两个序列模型组成,前半部分叫做编码,后半部分叫做解码。用于机器翻译。
image

image to sequence

sequence to sequence:一个卷积神经网络和一个序列模型组成,前半部分叫做编码,后半部分叫做解码。用于图片描述。
image

3.2 选择最可能的句子

  • 语言模型:根据输入的零向量根据概率预测输出,一个单词一个单词的生成 P(y<1>,y<2>,...,y<n>) P ( y < 1 > , y < 2 > , . . . , y < n > )
  • 机器翻译:前半部分编码网络将输入的句子进行编码,后半部分解码网络输出整个句子的翻译的多种可能的概率,然后选取最可能的一种。 P(y<1>,y<2>,...,y<n>|P(x<1>,x<2>,...,x<m>)) P ( y < 1 > , y < 2 > , . . . , y < n > | P ( x < 1 > , x < 2 > , . . . , x < m > ) )

最通用的选取最合适翻译的算法是:集束搜索(Beam Search)

基本原理: 每次找出集束宽度(beam width)个词,往下进行,预测以 X 和已经预测的 Y 的元素为前提下的下一个词的概率,仍然保留最可能的集束宽度个词,以此类推,直到完成整个句子的翻译。

如果集束宽度为1,那么就是贪婪算法了,集束搜索只不过是每次保留三个而不是一个而已。

以法语翻译成英语的机器翻译为例

有: P(y<1>,y<2>|X)=P(y<1>|X)P(y<2>|X,y<1>) P ( y < 1 > , y < 2 > | X ) = P ( y < 1 > | X ) ∗ P ( y < 2 > | X , y < 1 > )
- Step 1:输入 X 编码网络,通过softmax层计算各个单词(词汇表中的所有单词)输出的概率值 P(y<1>|X) P ( y < 1 > | X ) ,通过设置集束宽度(beam width)的大小如3,则取前3个最大输出概率的单词,并保存起来。

image

  • Step 2:分别对第一步得到的每一个单词计算其与单词表中的所有单词组成词对的概率 P(y<2>|X,y
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值