【Attention Is All You Need】Transformer详解

最新推荐文章于 2023-07-05 10:37:51 发布

咖啡味儿的咖啡

最新推荐文章于 2023-07-05 10:37:51 发布

阅读量427

点赞数

分类专栏：深度学习文章标签：人工智能

本文链接：https://blog.csdn.net/wangdongwei0/article/details/107863187

版权

Transformer由Google团队于2018年提出，摒弃了传统的CNN和RNN，完全基于Attention机制。网络主要由self-Attention和Feed Forward Neural Network构成，通过Encoder和Decoder的多层堆叠实现序列处理。self-Attention通过Query、Key和Value向量计算注意力权重，解决了RNN的并行性和长期依赖问题。同时，位置编码用于捕捉序列顺序信息。

摘要由CSDN通过智能技术生成

年代：2018年

团队：Google

1. 前言：

Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成，更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。
一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的Encoder-Decoder

2. activation:

对于RNN计算智能从左向右依次计算，这种机制带来了两个问题：

t时刻的计算依赖于t-1时刻，这样先知了模型的并行能力
顺序计算过程中信息会丢失，尽管LSTM等门结构可以一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，lstm依旧无能为力

3. Transformer 结构

Self-Attention：核心内容是为输入向量的每个单词学习一个权重，例如在下面的例子中我们判断it代指的内容

The animal didn't cross the street because it was too tired

通过加权之后可以得到类似图8的加权情况

preview

在Self-attention中，每个单词有三个不同的向量，他们分别是Query向量(Q)，Key向量(K)，Value向量(V)，shape均为[64, 1]，它们都是由3个不同的权值矩阵由嵌入向量X乘以3个不同的权值矩阵Wq, Wk, Wv得到，三个矩阵的尺寸也是相同的，均是[512, 64]

最低0.47元/天解锁文章

咖啡味儿的咖啡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Attention Is All You Need】Transformer详解

年代：2018年团队：Google1. 前言：Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成，更准确地讲，Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的Encoder-Decoder2. activation:对于
复制链接

扫一扫

专栏目录