Transformer浅析

最新推荐文章于 2024-08-13 19:45:26 发布

Chermack

最新推荐文章于 2024-08-13 19:45:26 发布

阅读量2.1k

点赞数 1

分类专栏：注意力机制文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chermack/article/details/107308402

版权

原论文地址：

https://arxiv.org/abs/1706.03762

原解析地址：

https://jalammar.github.io/illustrated-transformer/

代码地址：

https://github.com/tensorflow/tensor2tensor

一、概述

本文内容是对《Attention Is All You Need》所提出的Transformer模型进行的简单梳理。Transformer的基础即是注意力机制（Attention），该模型由Google主导提出，起初的目的是使用注意力机制来改善NMT（Neural Machine Translation）模型，后来发现transformer在某些特定的任务场景下甚至超越了NMT的性能，因此论文取名《Attention Is All You Need》，意为仅使用Attention模块便足够了，不再需要使用RNN、CNN等复杂结构或搭配混合使用。在transformer之后，基于transformer的BERT模型在NLP领域也得到了很好的发展。本文将穿插记录《Attention Is All You Need》和《The Illustrated Transformer》两篇文章来对transformer模型进行一个简单梳理。

二、Transformer优点

transformer相对于拥有残差结构和卷积结构的深度学习模型来说，其网络结构更加简单，并且训练和推理速度更快。（仅在P100GPUs上训练了12个小时就达到了SOTA水平）。
仅使用transformer在一些特定的任务上能取得更好的测试效果（语言建模，机器翻译等）。
transformer拥有更高的并行度，并作为了谷歌云推荐的TPU（Tensor Processing Unit）推导模型。

三、Transformer结构

1.整体结构

从最高层面来看，Transformer最为

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Chermack CSDN认证博客专家 CSDN认证企业博客

码龄4年

8: 原创

14万+: 周排名

32万+: 总排名

4万+: 访问

: 等级

448: 积分

10: 粉丝

88: 获赞

8: 评论

296: 收藏

私信

关注

热门文章

分类专栏

最新评论

CUDA PYTHON 并行计算基础
m0_52197743: 讲得好清楚，太感谢了
《Attention Is All You Need》注意力机制公式中Q,K,V的理解
仙贝啊我的爱: transformer源论文中说，编码解码注意力机制的KV都来自编码器，Q来自解码器上一层，但是看你的描述怎么感觉不太一样
《Attention Is All You Need》注意力机制公式中Q,K,V的理解
UncoDong: 感谢博主，讲的很好！
《Attention Is All You Need》注意力机制公式中Q,K,V的理解
Chermack: 你好，我这里确实没有说清楚。按照我的简单理解，Attention的目的，是要将原始整个输入（X），通过计算得到一个有不同重要程度的结果（Y），文中给出的Attention计算公式可以分成两部分理解。一个是softmax函数包裹的部分（这是一个权重分布，代表的是各部分的重要程度，是一个概率值），另一个部分是V（可以看作是原始输入）。二者相乘，就是把注意力作用在原始输入上，得到一个有重要性程度区分的输出。在自注意力中，不妨理解为Q=K=V=X（输入），而实际上这4个并不相等，但Q,K,V都是输入X通过线性变换得来的。我后续有更好的理解会再写一篇文章描述。这是我的见解，如有不对的地方恳请指正
《Attention Is All You Need》注意力机制公式中Q,K,V的理解
qq_null: 请问自身的value是什么呢？就是V的含义不大清楚

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。