【Attention Is All You Need】Transformer详解

Transformer由Google团队于2018年提出,摒弃了传统的CNN和RNN,完全基于Attention机制。网络主要由self-Attention和Feed Forward Neural Network构成,通过Encoder和Decoder的多层堆叠实现序列处理。self-Attention通过Query、Key和Value向量计算注意力权重,解决了RNN的并行性和长期依赖问题。同时,位置编码用于捕捉序列顺序信息。
摘要由CSDN通过智能技术生成

年代:2018年

团队:Google

1. 前言:

  • Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成,更准确地讲,Transformer由且仅由self-AttenionFeed Forward Neural Network组成。
  • 一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder

2. activation:

对于RNN计算智能从左向右依次计算,这种机制带来了两个问题:

  • t时刻的计算依赖于t-1时刻,这样先知了模型的并行能力
  • 顺序计算过程中信息会丢失,尽管LSTM等门结构可以一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,lstm依旧无能为力

3. Transformer 结构

Self-Attention:核心内容是为输入向量的每个单词学习一个权重,例如在下面的例子中我们判断it代指的内容

The animal didn't cross the street because it was too tired

通过加权之后可以得到类似图8的加权情况

preview

在Self-attention中,每个单词有三个不同的向量,他们分别是Query向量(Q),Key向量(K),Value向量(V),shape均为[64, 1],它们都是由3个不同的权值矩阵由嵌入向量X乘以3个不同的权值矩阵Wq, Wk, Wv得到,三个矩阵的尺寸也是相同的,均是[512, 64]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值