Attention model 可以应用在图像领域也可以应用在自然语言识别领域
本文讨论的Attention模型是应用在自然语言领域的Attention模型,本文以神经网络机器翻译为研究点讨论注意力机制,参考文献《Effective Approaches to Attention-based Neural Machine Translation》
这篇文章提出了两种Attention模型分类:global、local
首先我们先定义些概念,以免在之后的讨论中混淆,机器翻译中输入的语言我们称为source,输出的语言我们称为target
上图中A、B、C、D 是输入端称为source,X、Y、Z是输出端称为target,图中采用了两个RNN(循环神经网络),下边的称为编码器用于计算source的向量表示形式,上边的称为译码器,在每个时间步产生一个target单词,多个时间步之后就产生了一个句子,如果这里关于RNN、编码器和译码器不清楚,大家自行百度。
翻译模型就是在给定输入的情况下,算出每个单词输出的概率,即 p(y|x) x是source x1, . . . , xn, y是target sentence, y1, .. , ym
传统的target单词产生概率的计算定义为以下方式: