2022李宏毅机器学习深度学习学习笔记第三周--transformer


摘要

本文介绍的内容是transformer (全自注意力网络),它主要分成两块,encoder和decoder,并对encoder和decoder的架构分别作了解释,通过对比encoder和decoder的架构的不同之处,介绍了masked self-attention,最后介绍了cross attention,连接encoder和decoder之间的桥梁。


一、transformer的引入

transformer就是一个sequence-to-sequence(seq2seq)的模型,并且用到了self-attention;输入是一个序列,输出也是一个序列,但是输出的长度取决于机器。比如语音识别,聊天机器。
seq2seq for syntactic parsing
输入是一段文字,输出是一个树状的结构(可以看做是一个序列)
在这里插入图片描述
seq2seq for multi-label classification
multi-class classification 是从数个类别中,选择某一个类出来;multi-label classification同一个东西可以属于多个类(class);机器决定每篇文章属于多少个class。
在这里插入图片描述

怎么做seq2seq模型

seq2seq分成两块,一块是encoder编码器,一块是decoder解码器;在这里插入图片描述

encoder的架构

encoder要做的事就是给一排向量,输出另外一排向量。transformer的encoder用的就是self-attention。
encoder里面会分成很多的block,每个block都是输入一排向量,输出一排向量;每个block做的事情大概是先做一个self-attention,输出被丢到fully-connected里面,得到处理后的向量。
在这里插入图片描述
在transformer里面做的更复杂,他加入了一个设计是不只是输出向量a,还要把输出向量加上输入b得到新的输出(a+b)这样的架构叫做residual;得到结果之后再做norm(layer norm:计算图中的三个值,得到输出),norm的输出才是FC的输入,FC也有residual架构
在这里插入图片描述
multi-head attention 就是上述self-attention的block;add and norm就是residual+layer norm
在这里插入图片描述

decoder

常见的是auto regressive decoder(AT),这里举语音识别的例子,如何输出文字,首先给decoder一个特殊的符号,符号代表开始,输出一个向量,向量的长度和中文字的数目是一样的,给每个中文字一个分数,分数最高的是最终的输出,这里机的分数最高,所以输出机;还要准备一个符号end,代表断,当输出习(语音识别结束),输出end。
在这里插入图片描述
再把机当做decoder新的输入,输出器,以此类推。decoder看到的输入其实是前一个时间节点自己的输出。
在这里插入图片描述
encoder和decoder对比可以看到,去除中间阴影的部分,两者的差别不是很大;在multi-head attention中多了一个masked。
在这里插入图片描述
self-attention是根据a1-a4所有的资讯来得到b1,masked self-attention 的区别就是不能考虑右边的部分,b1只考虑a1,b2只考虑a1,a2的资讯。
在这里插入图片描述
为什么要masked?
在encoder的时候a1-a4是一起读进去,一起输出bi;但是对decoder而言。先有a1,再有a2,然后a3,再a4,所以在计算a2时,没有办法考虑a3,a4。

Non-autoregressive(NAT)

NAT 不是一次产生一个字,一次产生整个句子。
在这里插入图片描述
NAT decoder的好处就是平行化(一个步骤就产生完整的句子)、可以控制输出的长度。
在这里插入图片描述
cross attention是连接encoder和decoder之间的桥梁。两个输入来自encoder,一个输入来自decode;
cross attention的运作过程如下:在这里插入图片描述
decoder读进begin,经过self-attention得到向量,向量乘上一个矩阵得到query,从a1-a3得k1-k3,把q和k1-k3计算得到attention的分数α1-α3,α1-α3再乘上v1-v3,再把它们加起来得到v,v接下来被丢到fully connected network做接下来的处理。q来自decoder,k和v来自encoder这个过程就叫做cross attention。
怎么做训练(training)
这里讲语音辨识,训练资料就是一大堆的声音讯号,transformer听到声音讯号,打出机器学习四个字。当我们把begin丢给decoder的时候,它的第一个输出应该越接近“机”越好。“机”会被表示成一个向量,向量中只有机对应的维度是1,其他的都是0;而decoder的输出是一个几率分布,我们希望几率的分布和向量越接近越好。
在这里插入图片描述
每个输出都会和正确答案有一个cross entropy,我们希望所有cross entropy的总和越小越好。记得第五个位置输出断。
decoder的输入是正确答案,也就是说在有begin和机的情况下要输出器,begin、机、器的情况下输出学,这件事情叫teacher forcing,即把正确的答案当做decoder的输入。
在这里插入图片描述
给seq2seq模型的tips
1.copy mechanism,对一些任务而言,decoder没有必要产生输出,它要做的是从输入的东西中复制一些出来,像这种复制行为的例子有聊天机器人。
像下面的聊天内容,对机器来说没有必要创造库洛洛这个词汇,很少出现,机器直接将用户的名字复制过来。
在这里插入图片描述
有时候机器会犯低级的错误,比如让机器根据输入的文字发出声音,读四遍发财的时候有抑扬顿挫的声音,读一遍的时候只有财的音。我们发现机器漏字,有一种方法让他把输入的每个东西统统看过,这叫guided attention。
在这里插入图片描述
guided attention要求机器在做attention时有固定的方式。
beam search
假设decoder只能产生两个输出,A和B,第一次选择A,将A当做输入再决定选哪个。decoder会输出分数高的那一个,在下图中会输出ABB,每次找分数最高的当做输出叫做greedy decoding。
在这里插入图片描述
比较红色和绿色的路发现绿色的路是比较好的。

二、总结

以上就是所学的内容,通过学习主要是了解了transformer 的encoder架构和decoder架构。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值