王小草【深度学习】笔记第七弹--RNN与应用案例：注意力模型与机器翻译

本文链接：https://blog.csdn.net/sinat_33761963/article/details/53521206

本文介绍了注意力模型在图像描述中的应用，详细阐述了其运作原理，包括输入、卷积神经网络、RNN的注意力机制以及输出。接着探讨了机器翻译系统的发展，从传统统计方法到神经网络翻译系统，再到加入注意力模型的改进，并讨论了不同改进对翻译效果的影响。此外，还提到了RNN生成模型在字符级语言模型、维基百科生成、食谱写作和音乐合成等领域的应用案例。

摘要由CSDN通过智能技术生成

标签（空格分隔）：王小草深度学习笔记

1. 注意力模型

1.2 注意力模型概述

注意力模型（attention model)是一种用于做图像描述的模型。在笔记6中讲过RNN去做图像描述，但是精准度可能差强人意。所以在工业界，人们更喜欢用attention model。

结合下图，先简单地讲一下，注意力模型的运作原理。
第一步：进来一张图片
第二步：图片进入卷积神经网络，进行前向运算，将某个卷积层的结果输出。注意，上一个笔记中讲的RNN做图像描述，用的是全链接层的输出。至于说哪个层的输出好，没法下结论，这个需要去不同的场景中做实验比较。比如这个实验中选择了输出卷积层的第5层结果进行输出。
第三步：卷积层中的输出作为输入，进入了RNN，这个RNN的运作与之前讲的有所不同，因为加进了“注意力”的因素，会去注意图片中的某一块趋于，具体的逻辑下文详述。
第四步：输出，生成描述性的文字。

QQ截图20160902150810.png-193kB

1.1.2 注意力模型的结构

QQ截图20160902162541.png-178.4kB

现在，我们来针对上图中的结构，仔细地讲述注意力模型的运作原理。

第一步：
还是一样，输入一张图片。当然不是一张原始的图片，而是图片转换成的H * W * 3维的矩阵，H和W是像素的高度和宽度，3是3个颜色指标。

第二步：
这个矩阵进入了卷积神经网络CNNN，做前向运算，在第五层卷基层的时候输出结果。这个结果是一个L * D的矩阵。D是这一层卷基层中神经元的个数，比如有512个。L是每个神经元中的feature map,比如是14 * 14维的。那么L * D 就是 196 * 512维的向量了。

第三步：
自己先人为创建一个D * 1维的权重向量W（这个权重的最优值在后向求导的时候会算出来的，一开始可以先随便初始化一个）。
拿从CNN出来的feature向量L * D 去乘以这个权重向量W，得到的是L * 1的向量。也就是图中的h0，h0经过一个sotmax，会得到L * 1的概率，也就是说，对一个L 维的feature map（14 * 14）求出196个相对应的概率向量，就是图中的a1。

第四步：
a1是196维的概率向量，把它再与 L * D的feature向量相乘，求加权。也就是说，对521层神经元上的feature map都乘以一组概率，得到的是图中的z1。
这是至关重要的一步，也是注意力模型的核心，因为概率的大小重新调整了feature向量中每个值的大小。概率大的就会放更多的注意力上去，概率小的，注意力就减小了。
这个z1直接作用于第二次循环中的