Transformer初学习（一）

fadedtj

于 2021-03-24 11:05:25 发布

阅读量230

点赞数

分类专栏： Transformer # self-attention 文章标签：机器学习 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50811752/article/details/115160065

版权

Transformer 同时被 2 个专栏收录

3 篇文章 4 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Transformer 初学习

Self-attention
- 为什么提出Self-attention
- Self-attention如何平行运算

Self-attention

为什么提出Self-attention

我们现在有a1, a2, a3, a4四个输入，先来看一下RNN是怎么做的
在这里插入图片描述
对于这个结构来说，必须要计算完前一个RNN，才能开始不断更新下一个RNN。也就是说，我们必须按照a1–>a2–>a3–>a4的顺序最终得到b4，不能够平行运算（Hard to parallel ！）
那么就有人提出了用CNN来取代RNN的想法，让我们来一起看看CNN怎么解决这个问题：
在这里插入图片描述
对于输入a1, a2, a3, a4 可以通过多个filter同时得到 b1, b2, b3, b4；但是这时候又遇到一个问题，这里每个CNN都只能考虑有限的内容，不像RNN可以考虑整个句子（a1-a4）的内容；因此我们要使用多层CNN。可以看到上图中蓝色的三角，它可以看到这个句子所有的内容。但是问题就来了，如果你要看到长期的资讯，就需要叠很多层的CNN，如果你想要在第一个filter就看到长期的资讯，是做不到的。*因此self-attention就被提出，有效地解决了这个问题 *
我们先来大概的看一下，什么是Self-attention：
在这里插入图片描述
这里我们先大致的了解一下Self-attention做了什么事情，简单来说，就是输入a1-a4，可以通过平行运算，得到b1-b4。

Self-attention如何平行运算

我们清楚了Self-attention在做什么之后，一起来看看它是如何做到平行运算的：
在这里插入图片描述
从上图可以看到，我们在计算 Q, K, V 矩阵时，都可以通过 Wq, Wk, Wv 实现平行运算；（W矩阵是训练得到的，随机初始化）

从上图看到，我们可以通过这种方式，平行运算得到我们的注意力矩阵A，再通过softmax可以得到之后的矩阵。
在这里插入图片描述
最后以同样的形式可以平行运算得到输出矩阵O：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer初学习（一）

Transformer 初学习Self-attention为什么提出Self-attentionSelf-attention如何平行运算Self-attention为什么提出Self-attention我们现在有a1, a2, a3, a4四个输入，先来看一下RNN是怎么做的对于这个结构来说，必须要计算完前一个RNN，才能开始不断更新下一个RNN。也就是说，我们必须按照a1–>a2–>a3–>a4的顺序最终得到b4，不能够平行运算（Hard to parallel ！）那么就有
复制链接

扫一扫

专栏目录

fadedtj CSDN认证博客专家 CSDN认证企业博客

码龄4年

16: 原创

53万+: 周排名

213万+: 总排名

5万+: 访问

: 等级

384: 积分

57: 粉丝

63: 获赞

83: 评论

489: 收藏

私信

关注

热门文章

分类专栏

最新评论

DETR: DEtection + TRansformer 将transformer引入CV的首创
CSDN-Ada助手: 非常感谢博主的分享，DETR确实是一个将transformer引入CV领域的首创。我觉得下一篇博客可以继续深入探讨transformer在CV领域中的应用，比如可以结合实际案例分析，阐述transformer对于目标检测、图像分割等任务的优势和不足之处，同时探讨如何进一步优化模型性能等。这样的技术文章对其他用户也会有很大的帮助。相信会有更多读者期待您的下一篇博客。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Temporal-Relational CrossTransformers for Few-Shot Action Recognition 学习解读
纯牛奶YYDS: 请问可以分享一下SSv2数据集吗
Temporal-Relational CrossTransformers for Few-Shot Action Recognition 学习解读
纯牛奶YYDS: 博主，可以分享一下SSv2数据集吗？球球了
PA-ResGCN for Skeleton-based Action Recognition论文解读与复现
Deeply_Lover: 作者你好，我用的GCN模型做的东西，现在像用ResGCN换一下GCN，为啥感觉代码这么复杂。
Temporal-Relational CrossTransformers for Few-Shot Action Recognition 学习解读
qq_42026071: 我也要一份博主，谢谢 1947862970@qq.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。