1.Self-Attention模型图解
传统的循环神经网络,如上左图1,并不能解决并行化的问题,右图就是一个self-Attention可以实现并行化,并且能解决对于所有信息的读取利用。
将self—Attention替换相应的GRU或者RNN,就能实现从输出a到输出b,每一个b都能看到a1-a4的信息,同时b的计算还能实现并行化。
Self-Attention就是来自于《Attention is all you need》这篇文献当中,可以通过下面的链接进行下载:
https://arxiv.org/abs/1706.03762
1.1 Self-Attention解决方案
如图相应的X是作为输入,每一个输入x都乘以一个权重W,得到αi。
然后将每一个α都拆分为三个向量,q,k,v的三个。qk主要完成Attention的工作,v完成抽取序列信息。
Q:其中q用于去