文章目录
广义注意力机制模型
- 最初Attention机制的引入,为了解决机器翻译中将长序列向定长向量转化而造成的信息损失的瓶颈。Attention即将注意力关注于翻译部分对应的上下文。关键的操作是计算encoder与decoder state之间的关联性的权重,得到Attention分布,从而对于当前输出位置得到比较重要的输入位置的权重,在预测输出时相应的会占较大的比重。
- 通过Attention机制的引入,打破了只能利用encoder最终单一向量结果的限制,从而使模型可以集中在所有对于下一个目标单词重要的输入信息上,使模型效果得到极大的改善。
Self-Attention
- 以QKV模型来理解Attention机制,假定输入为Q (Query), Memory中以键值对(K, V)形式存储上下文信息,注意力机制可以看作是Query到一系列键值对(Key, Value)上的映射函数。
Attention Value = Q K T V QK^TV QKTV
Attention本质为序列中的每一个元素分配一个权重系数, Q K T QK^T QKT可看做Value的权重系数。 - Attention Value (Q, K, V) = s o f t m a x ( Q K T d K ) V softmax(\frac