李宏毅机器学习笔记——Transformer

Seq2seq

输入一串序列,输出一串序列,但不知道序列长度,由机器自己决定。eg.语音识别、翻译、多标签分类、目标检测
在这里插入图片描述
在这里插入图片描述

Transfomer

Encoder

在这里插入图片描述
Transform用的layer Nomination

decoder

1. Autorgressive

在这里插入图片描述

  • 上一个decoder的输入是下一个的输入:如果上一个输出错误,也会影响下一步的预测;输出是一个个产生的,串行,只能考虑左边的
  • 拥有begin和end标志

mask self-attention:只考虑左边的输入;self-attention考虑全部的输入
在这里插入图片描述
在这里插入图片描述
比如:计算b2就只考虑a1和a2
在这里插入图片描述
在这里插入图片描述

2. Non-autorgressive(NAT)

NAT:输入一排begin,同时产生所有输出。并行的,快,但是不如AT效果好

怎么知道该输入多少个begin信号呢?

  1. 在decoder之前用一个分类器,输入为encoder的结果,输入为一个数字,即该输入decoder的数目
  2. 设置一个长度上限比如300,同时输入300个begin信号,如果遇到end,end后面的就不输出
    在这里插入图片描述

Cross attention

在这里插入图片描述
在这里插入图片描述
Cross attention:用Encoder产生的所有的K、V和decoder中的Mask self-attention产生的q分别再做attention计算

traning

在这里插入图片描述
在这里插入图片描述
Teacher Forecing:将正确答案作为decoder输入
在这里插入图片描述

tips

  1. Copy Mechanism
    有些信息可以从输入的信息中复制过来,不需要机器生成(可以从文章中训练生成摘要)
    在这里插入图片描述

(李宏毅大佬居然还看《全职猎人》,我幻影旅团团长库洛洛·鲁西鲁!!!居然被提到了,还有小杰!其实我更喜欢犽奇耶

  1. Guided Attention
    在一些任务中,机器可以会忽略掉一些内容,影响效果,比如语音合成、语言识别,可以通过Guided Attention处理
    Guided Attention强迫你的attention有固定的样貌(顺序、限制)

  2. Beam Search
    寻找最优路径的一个比较好的方法(有时有用,有时没用,看任务本身,任务目标本事很明确,结果确定的比较有用;有时候decoder有一些随机性比较好,比如语音合成TTS)
    在这里插入图片描述

exposure bias

在训练时,一直给Decoder 正确的数据进行训练,会产生正确的答案,但是在测试的时候可能会出错,一步错步步错,因为decoder是要利用上一个的输出进行预测,如果上一个就错了…这个现象叫exposure bias
解决办法:在decoder进行训练的时候就给一些噪声(错误数据)即Scheduled Sampling,但会伤害到transfomer的平行化能力

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值