吴恩达Coursera深度学习课程 deeplearning.ai (5-3) 序列模型和注意力机制--课程笔记

最新推荐文章于 2022-04-15 00:29:15 发布

haoyutiangang

最新推荐文章于 2022-04-15 00:29:15 发布

阅读量736

点赞数

分类专栏：机器学习深度学习吴恩达

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haoyutiangang/article/details/81231238

版权

本文详细介绍了吴恩达的Coursera深度学习课程中关于序列模型和注意力机制的内容，包括sequence to sequence模型在机器翻译和图片描述中的应用，集束搜索算法的优化方法，如长度归一化和选择合适的集束宽度，以及注意力模型在语音识别中的应用。此外，还讨论了BLEU得分和触发字检测等关键概念。

摘要由CSDN通过智能技术生成

3.1 基础模型

sequence to sequence

sequence to sequence：两个序列模型组成，前半部分叫做编码，后半部分叫做解码。用于机器翻译。

image to sequence

sequence to sequence：一个卷积神经网络和一个序列模型组成，前半部分叫做编码，后半部分叫做解码。用于图片描述。

3.2 选择最可能的句子

语言模型：根据输入的零向量根据概率预测输出，一个单词一个单词的生成。 $P(y^{<1>},y^{<2>}, ... ,y^{<n>})$
机器翻译：前半部分编码网络将输入的句子进行编码，后半部分解码网络输出整个句子的翻译的多种可能的概率，然后选取最可能的一种。 $P(y^{<1>},y^{<2>}, ... ,y^{<n>} | P(x^{<1>},x^{<2>}, ... ,x^{<m>}))$

最通用的选取最合适翻译的算法是：集束搜索（Beam Search）

3.3 集束搜索（Beam search）

基本原理： 每次找出集束宽度(beam width)个词，往下进行，预测以 X 和已经预测的 Y 的元素为前提下的下一个词的概率，仍然保留最可能的集束宽度个词，以此类推，直到完成整个句子的翻译。

如果集束宽度为1，那么就是贪婪算法了，集束搜索只不过是每次保留三个而不是一个而已。

以法语翻译成英语的机器翻译为例

有： $P(y^{<1>}, y^{<2>}|X) = P(y^{<1>}|X) * P(y^{<2>}|X, y^{<1>})$
- Step 1：输入 X 编码网络，通过softmax层计算各个单词（词汇表中的所有单词）输出的概率值 $P(y^{<1>}|X)$ ，通过设置集束宽度（beam width）的大小如3，则取前3个最大输出概率的单词，并保存起来。

Step 2：分别对第一步得到的每一个单词计算其与单词表中的所有单词组成词对的概率 P(y<2>|X,y

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达Coursera深度学习课程 deeplearning.ai (5-3) 序列模型和注意力机制--课程笔记

3.1 基础模型sequence to sequencesequence to sequence：两个序列模型组成，前半部分叫做编码，后半部分叫做解码。用于机器翻译。 image to sequencesequence to sequence：一个卷积神经网络和一个序列模型组成，前半部分叫做编码，后半部分叫做解码。用于图片描述。 3.2 选择最可能的句子语言模型：...
复制链接

扫一扫

专栏目录

haoyutiangang CSDN认证博客专家 CSDN认证企业博客

码龄9年

79: 原创

4万+: 周排名

146万+: 总排名

13万+: 访问

: 等级

2077: 积分

188: 粉丝

165: 获赞

31: 评论

647: 收藏

私信

关注

热门文章

分类专栏

决策树 7篇
Hadoop实战 4篇
ZooKeeper
Flume 1篇
Kafka 2篇
Storm 2篇
项目基础 2篇
Hive 3篇
Java 2篇
Spark 1篇
算法 14篇
LeetCode 14篇
机器学习 48篇
深度学习 41篇
吴恩达 34篇

最新评论

深度学习系列6：卷积神经网络的反向传播
提莫队长刘谢文: 兄弟，请问解决了吗？是直接相加吗？
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 人脸识别和神经风格转换--编程作业
自向阳_: def compute_layer_style_cost(a_S, a_G): """ Arguments: a_S -- tensor of dimension (1, n_H, n_W, n_C), hidden layer activations representing style of the image S a_G -- tensor of dimension (1, n_H, n_W, n_C), hidden layer activations representing style of the image G Returns: J_style_layer -- tensor representing a scalar value, style cost defined above by equation (2) """ ### START CODE HERE ### # Retrieve dimensions from a_G (≈1 line) m, n_H, n_W, n_C = a_G.get_shape().as_list() # Reshape the images to have them of shape (n_C, n_H*n_W) (≈2 lines) a_S = tf.transpose(tf.reshape(a_S, [n_H * n_W, n_C])) a_G = tf.transpose(tf.reshape(a_G, [n_H * n_W, n_C])) # Computing gram_matrices for both images S and G (≈2 lines) GS = gram_matrix(a_S) GG = gram_matrix(a_G) # Computing the loss (≈1 line) J_style_layer = (1 / (2 * n_C * n_W * n_H) ** 2) * (tf.reduce_sum(tf.square(tf.subtract(GS, GG)))) ### END CODE HERE ###
深度学习系列6：卷积神经网络的反向传播
AgileFastx: 请问对于多filter的情况如何求dA
决策树系列3：信息增益、增益率、基尼系数 (史上最详尽)
Artemisia_Cain: 这里信息增益的举例算错了吧，应该是Ent(X|场地=室外)后面不应该是logbase2吗？log()这怎么直接用的lg来算啊，lg(1/2)才是0.3010。
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 人脸识别和神经风格转换--编程作业
qq_43724777: The Session graph is empty. Add operations to the graph before calling run().

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。