注意力机制
注意力机制(Attention Mechanism)是解决信息超载问题的一种资源分配方案,将计算资源分配给更重要的任务。
注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布,二是根据注意力分布来计算输入信息的加权平均。
注意力分布采用一种“软性”的信息选择机制,首先计算在给定q和X下,选择第i个输入信息的概率αi:
其中αi 称为注意力分布(Attention Distribution),s(xi, q)为注意力打分函数。
加权平均采用一种“软性”的信息选择机制对输入信息进行汇总。
软性注意力机制(Soft Attention Mechanism):
软性注意力选择的信息是所有输入信息在注意力分布下的期望。
硬性注意力(Hard Attention)只关注到某一个位置上的信息,有两种实现方式:一种是选取最高概率的输入信息,即 att(X, q) = xj , 其中j为概率最大的输入信息的下标,即
另一种是通过在注意力分布式上随机采样的方式实现。
硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。最终的损失函数与注意力分布