**总结:**好像用的都是同一套代码进行讲解,图也是互相借鉴
这个自注意力机制和多头注意力机制讲解的比较好
(10条消息) Transformer详解(附代码)_鬼道2022的博客-CSDN博客_transformer代码
然后对整个model进行的理论讲解
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)_哔哩哔哩_bilibili
对代码进行逐行讲解(其实也不是逐行)
Transformer代码(源码Pytorch版本)从零解读(Pytorch版本)_哔哩哔哩_bilibili
这个动画的演示和参数维度讲解很好
Transformer详解 - mathor (wmathor.com)
以及他的CSDN的讲解
(10条消息) Transformer的PyTorch实现(超详细)_数学家是我理想的博客-CSDN博客_pytorch实现transformer