Transformer | 鲁老师 所有参考来自以上的文章,简单来说,要实现自注意力,就得去完成 自己点乘自己的操作,然后得到的结果就能够通过调整矩阵参数完成训练了。 简单来说,构造了三个矩阵 ,这三个矩阵就是为了完成自己点乘自己的操作。 https://zhuanlan.zhihu.com/p/67909876 注意力机制到底在做什么,Q/K/V怎么来的?一文读懂Attention注意力机制 - 知乎