Transformer机制学习笔记

学习自https://www.bilibili.com/video/BV1J441137V6

RNN,CNN网络的缺点

在这里插入图片描述

难以平行化处理,比如我们要算 b 4 b^4 b4,我们需要一次将 a 1 a^1 a1~ a 4 a^4 a4依次进行放入网络中进行计算。

于是有人提出用CNN代替RNN
在这里插入图片描述
三角形表示输入, b 1 b^1 b1的结果是由 a 1 , a 2 a^1,a^2 a1,a2产生。
a 1 a^1 a1~ a 4 a^4 a4可以同时并行输入到CNN中。
但是,这么做的话可以表示的内容非常有限,解决方法是再往上继续建造。
在这里插入图片描述
这样的话,蓝色的输入,就相当于获得了 a 1 a^1 a1~ a 4 a^4 a4的输入。
CNN的优点就是可以同时计算,缺点就是需要叠很多层

self-Attention层

self-Attention层要做的就是,既能达到RNN的功能,同时又能像CNN一样平行化。
在这里插入图片描述
在这里插入图片描述

self-attention层运作步骤

  • 拿每个q与每个k进行attention运算
    在这里插入图片描述
    d d d q , k q,k q,k的维度,这个可以理解为是为了平衡维度带来的影响,因为维度越大,点乘出来的结果就会相应的较大,所以除以维度可以消除一部分影响。
  • 然后再统一做一下softmax
    在这里插入图片描述
    在这里插入图片描述
  • 随后 a ^ \hat{a} a^再和 v v v相乘
    在这里插入图片描述
    在这里插入图片描述
    这样,计算 b 1 b^1 b1既可以并行计算,也能获取到 x 1 x^1 x1~ x 4 x^4 x4的全部数据。

如何并行化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以把上一层的内容统统放入到矩阵中,进行一次矩阵乘法即可算出下一层。而矩阵乘法可以用GPU加速。

在这里插入图片描述
q , k , v q,k,v q,k,v也是可以用多层的。

Position Encoding

在这里插入图片描述
实际上, x x x序列的位置信息是不重要的,因为每个位置都有一个独一无二的 e i e^i ei向量与它相加,依次来表示位置信息。这个 e i e^i ei不是从数据中学到的,而是人为赋值的。

Sequence To Sequence

在这里插入图片描述
在Sequence To Sequence模型中,就可以用self-Attention层来代替RNN或者CNN。

Transformer

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值