注意力机制
注意力机制使用非常广泛,其核心生成一个非负的权重向量或者矩阵,其和为0。,然后利用生成的权重向量或者矩阵逐元素乘以另外一个向量或者矩阵,自动捕获我们所关心的信息。
根据这个权重向量或者矩阵的取值范围不同,可以分为soft attention和hard attention。
soft attention 中,权重是在(0,1)之间。
hard attention中,权重是 one hot 向量。
生成权重的方式有很多种,因任务而已。可以直接点积得到,cosin相似度,神经网络等等。
至于self attention,也叫intra attention。是在自然语言处理中一种特殊的attention应用。用于计算序列中的长距离相互依赖关系。