注意力机制其实就是在Encoding。
什么是Encoding?:Encoding就是在编码,将一个东西A经过某种规则B变成另一种东西C,C是A的另一种表达(C与A指的是同一个东西只不过表现形式不同罢了)。这样从A到C的过程B就是Encoding的过程!
Encoding的谁?
- Encoding的words,使用SelfAttention机制将words encoding成sentence representation。(实现机制是:将每个query对words的encode vector(C)合成一个vector,具体看STCKA的操作)
- 仍然是Encoding的words,使用普通的Attention对每个query计算其C(encode vector)
以上两种是根据task不同划分的,第一种是要求sentence representation(用于sentence representation)。
另一种是求单个query的C即可(这个用于seq2seq)。
在SelfAttention中Q、K、V的计算方式:
- Q=K=V=WordVector
- 从WordVector中获取:(X是对应单词的WordVector)
这三个W参数是嵌入在模型中的。