上节课我们讲到了编码-embedding,现在我们离Transformer的核心又近了一层,也就是attention层,这也是论文标题里最重要的内容,属于是扣题了
这节应该是整个Transformer最有意思的地方了,也是大多数读者反映看着云里雾里的地方
还是用这幅图,我直接去掉了左边的部分,画红框的地方依然是被排除了
在经过了位置编码之后(三角编码或者RoPE),这块不理解的请看上一篇小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(2) (qq.com)
按照上图从下往上,我们现在要进入到所谓的“掩码多头自注意力”的模块(层)里了,为了把问题简单化,我们今天把问题拆成
-
掩码
-
多头
-
自注意力
这三部分开来讲,但是我们要先打乱一下顺序
第一个概念 自注意力:
什么是注意力?
大家别把这东西