【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解

最新推荐文章于 2024-07-18 14:22:38 发布

书文的学习记录本

最新推荐文章于 2024-07-18 14:22:38 发布

阅读量995

点赞数

分类专栏：视频总结文章标签： transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43935969/article/details/131549662

版权

视频总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

来源

前天啥也不懂的时候点开来一看，各种模型和公式，直接头大，看完DASOU的视频后，重新来看，串起来了，一下子明白了，霹雳吧啦对细节有了更好的描述。

【DASOU视频记录】Transformer从零详细解读

Transformer起源

Transformer是2017年Google在Computation and Language上发表的，当时主要是针对自然语言处理领域提出的

Self-Attention

1. 求q、k、v

在这里插入图片描述
多个q、k、v可以叠在一起用矩阵来做

2. 计算 $\hat{a} (softmax那块)$

在这里插入图片描述同样可以堆在一起计算

3. 乘V，计算结果

在这里插入图片描述

Multi-Head Attention

多头就是给定多套q、k、v矩阵
在这里插入图片描述
q第一个上标表示第几个词向量，第二个上标表示第几头

合并：将所有词向量合并在一起，得到x头个b

在这里插入图片描述

在这里插入图片描述

位置编码

如果没有位置编码，输入的顺序改变会导致不同的结果（不同线程抢占可能导致输入顺序改变。
在这里插入图片描述所以输入词向量embedding后加上位置编码结果作为模型输入。

这个视频主要用小例子将公式过了一遍，可以用来加深对整体过程细节的认识和把控。

书文的学习记录本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解

前天啥也不懂的时候点开来一看，各种模型和公式，直接头大，看完DASOU的视频后，重新来看，串起来了，一下子明白了，霹雳吧啦对细节有了更好的描述。Transformer是2017年Google在Computation and Language上发表的，当时主要是针对自然语言处理领域提出的。如果没有位置编码，输入的顺序改变会导致不同的结果（不同线程抢占可能导致输入顺序改变。这个视频主要用小例子将公式过了一遍，可以用来加深对整体过程细节的认识和把控。多个q、k、v可以叠在一起用矩阵来做。同样可以堆在一起计算。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

书文的学习记录本 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。