小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(3)

上节课我们讲到了编码-embedding,现在我们离Transformer的核心又近了一层,也就是attention层,这也是论文标题里最重要的内容,属于是扣题了

      这节应该是整个Transformer最有意思的地方了,也是大多数读者反映看着云里雾里的地方

      还是用这幅图,我直接去掉了左边的部分,画红框的地方依然是被排除了

      在经过了位置编码之后(三角编码或者RoPE),这块不理解的请看上一篇小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(2) (qq.com)

      按照上图从下往上,我们现在要进入到所谓的“掩码多头自注意力”的模块(层)里了,为了把问题简单化,我们今天把问题拆成

  •      掩码

  •      多头

  •      自注意力

      这三部分开来讲,但是我们要先打乱一下顺序

第一个概念 自注意力:

图片

       什么是注意力?

      大家别把这东西

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值