首先要了解 self attention,知乎上的一篇文章讲解的很好,
这个图很好的讲解了self attention,而 Multi- Head Attention就是在self attention的基础上把,x分成多个头,放入到self attention中,最后再把他们结果cancat到一起,现在我要处理的一个问题是,如何把x的维度与head的维度一样,也就是扩展x,达到我的想法。先留白,接下来要放入代码
首先要了解 self attention,知乎上的一篇文章讲解的很好,
这个图很好的讲解了self attention,而 Multi- Head Attention就是在self attention的基础上把,x分成多个头,放入到self attention中,最后再把他们结果cancat到一起,现在我要处理的一个问题是,如何把x的维度与head的维度一样,也就是扩展x,达到我的想法。先留白,接下来要放入代码