transfomer学习笔记

transfomer

一、摘要

主流的序列转换模型基于复杂的递归或卷积神经网络,其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构–“转换器”(Transformer)。跟RESNET一样,简单的架构有时候效果很好。完全基于注意力机制,无需递归和卷积

一开始为了解决机器翻译问题

结论

导言

RNN无法并行,时序比较长的话,前面的信息后面就丢掉了,如果想保留,只能做大HT,这样内存开销大。

RNN有和注意力结合的效果还行。作者完全抛弃循环,纯注意力。提高并行度

相关工作

用卷积神经网络替换掉循环神经网络。学习远距离位置之间的依赖关系变得更加困难。在Transformer中,这被减少到一个恒定的操作数量,注意力机制一层就能看到距离比较远的所有信息。卷积有多个输出通道,提出了多头注意力。自注意力

模型

输入输出长度不一定一样。解码的时候只能一个一个生成,过去时刻的输出也可以是当前的输入,这叫自回归。image-20231113210034948

编码器,六个层,两个子层加了残差连接,为了方便残差,每一层输出维度是512(和CNN不一样,CNN减少维度),两个参数512,6。

LayerNorm(x + Sublayer(x)),

image-20231113213338323

image-20231113213456984

算方差的话,batchnorm抖动比较大,要求全局的均值和方差。layernorm对针对样本算方差,要稳定一点。

解码器6层,解码器有第三个子层,做的自回归。注意力机制能看到完整的数据,但是当前输入不能来自未来的数字,t时刻不应该看到t时刻之后的数据。加了掩码mask。

注意力,输出是value的加权和,权重从哪里来。是value对应的key和q的相似度来的。kv不会变,根据q的变化改变权重。qk是等长的,v不一定。qk求内积除以根号dk,softmax,得到加和为1的权重。Q写成矩阵(nDK),K(DK**M),对每一行做softmax,V(M***DV),得到m.n的矩阵。

维度扩大四倍

实验

评论

DV),得到m.n的矩阵。

维度扩大四倍

实验

评论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值