全文共3028字,预计学习时长6分钟
图片来源:unsplash.com/@titouanc
人类感知的一个重要特质在于个体无法同时处理全部信息。相反,人类将注意力集中于局部视觉空间,以便在需要的时间和场合获取信息并对不同时段的信息进行合并,构建内在场景表现,指导日后的注意力分配及决策过程。
《视觉注意循环模型》,2014
本文将探讨如何实施注意力,以及在实施过程如何脱离更大的模型。这是因为在现实模型中实施注意力时,很多时的重点在于管理数据与控制不同的向量,而非注意力本身。
我们将在进行注意力评分的同时计算注意文本向量。
左:层次式点积注意力机制 右:以下将计算的多头注意力机制
注意力评分:
首先浏览一下评分功能的输入。假设处于解码阶段的第一步骤。评分功能的首个输入是解码器的隐藏状态(假定一循环神经网络有三个隐藏节点——尽管在实际应用中并不稳定,但便于说明)。
dec_hidden_state = [5,1,20]
将向量视觉化:
%m