2020-11-25 吴恩达DL学习-C5 序列模型-W3 序列模型和注意力机制(3.8 注意力模型)

最新推荐文章于 2024-09-12 11:12:51 发布

没人不认识我

最新推荐文章于 2024-09-12 11:12:51 发布

阅读量201

点赞数

分类专栏：深度学习 python IT 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42555985/article/details/110109869

版权

本文介绍了注意力模型在机器翻译中的应用，通过一个小型的神经网络学习如何分配注意力权重，使得模型在生成翻译时能关注输入句子的特定部分。注意力模型通过softmax函数确保权重总和为1，并通过反向传播进行训练。尽管存在时间复杂度为O(n^3)的问题，但在实际应用中仍具有可行性。此外，还提到了注意力模型在图片加标题等领域的应用。

摘要由CSDN通过智能技术生成

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

3.8 注意力模型 Attention model

在上节课中你已经见到了，注意力模型如何让一个NN只注意到一部分的输入句子。当它在生成句子的时候，更像人类翻译。让我们把这些想法转化成确切的式子，来实现注意力模型。

跟上节课一样，我们先假定有一个输入句子，并使用双向的RNN（循环神经网络），或者双向的GRU（门控循环单元）或者双向的LSTM（长短期记忆），去计算每个词的特征。实际上GRU和LSTM经常应用于这个，可能LSTM更经常一点。
在这里插入图片描述

对于前向传播（the forward occurrence），你有第一个时间步的前向传播的激活值 $\overrightarrow{a}^{<1>}$ （a forward occurrence first time step），第一个时间步后向传播的激活值 $\overleftarrow{a}^{<1>}$ ，以此类推。

他们一共向前了五个时间步，也向后了五个时间步，技术上我们把(最左边输入)这里设置为 $a^{<0>}$ 。我们也可以后向传播6次， $\overleftarrow{a}^{<6>}$ ，设一个都是0的因子，实际上就是个都是0的因子。
在这里插入图片描述

为了简化每个时间步的记号，即使你在双向RNN已经计算了前向的特征值 $\overrightarrow{a}^{<t>}$ 和后向的特征值 $\overleftarrow{a}^{<t>}$ ，我就用 $a^{<t>}$ 来一起表示这些联系， $a^{<t>}=(\overrightarrow{a}^{<t>},\overleftarrow{a}^{<t>})$ 。 $a^{<t>}$