目录
一、注意力计算规则
他需要三个指定的输入query,key,value,然后通过计算公式得到注意力的结果。这个结果代表query在key和value作用下的注意力表示,当q=k=v时,称作自注意力计算规则。
关于self-attention为什么要使用(Q, K, V)三元组而不是其他形式:
- 首先一条就是从分析的角度看, 查询Query是一条独立的序列信息, 通过关键词Key的提示作用, 得到最终语义的真实值Value表达, 数学意义更充分, 完备.
- 这里不使用(K, V)或者(V)没有什么必须的理由, 也没有相关的论文来严格阐述比较试验的结果差异, 所以可以作为开放性问题未来去探索, 只要明确在经典self-attention实现中用的是三元组就好.
二 注意力的三种计算规则
三 注意力机制流程
1 首先把q和k,在列这一维度,做拼接。然后进入线性层。在经过softmax 输出ÿ