李宏毅机器学习笔记——Transformer

最新推荐文章于 2025-04-19 16:40:32 发布

chairon

最新推荐文章于 2025-04-19 16:40:32 发布

阅读量1.3k

点赞数

分类专栏：李宏毅机器学习文章标签： transformer 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chairon/article/details/123519257

版权

李宏毅机器学习专栏收录该内容

19 篇文章

订阅专栏

Seq2seq

输入一串序列，输出一串序列，但不知道序列长度，由机器自己决定。eg.语音识别、翻译、多标签分类、目标检测
在这里插入图片描述

Transfomer

Encoder

在这里插入图片描述
Transform用的layer Nomination

decoder

1. Autorgressive

在这里插入图片描述

上一个decoder的输入是下一个的输入：如果上一个输出错误，也会影响下一步的预测；输出是一个个产生的，串行，只能考虑左边的
拥有begin和end标志

mask self-attention:只考虑左边的输入；self-attention考虑全部的输入
在这里插入图片描述

比如：计算b2就只考虑a1和a2

2. Non-autorgressive（NAT）

NAT：输入一排begin，同时产生所有输出。并行的，快，但是不如AT效果好

怎么知道该输入多少个begin信号呢？

在decoder之前用一个分类器，输入为encoder的结果，输入为一个数字，即该输入decoder的数目
设置一个长度上限比如300，同时输入300个begin信号，如果遇到end，end后面的就不输出

Cross attention

在这里插入图片描述

Cross attention：用Encoder产生的所有的K、V和decoder中的Mask self-attention产生的q分别再做attention计算

traning

在这里插入图片描述

Teacher Forecing：将正确答案作为decoder输入

tips

Copy Mechanism
有些信息可以从输入的信息中复制过来，不需要机器生成（可以从文章中训练生成摘要）

（李宏毅大佬居然还看《全职猎人》，我幻影旅团团长库洛洛·鲁西鲁！！！居然被提到了，还有小杰！其实我更喜欢犽奇耶

Guided Attention
在一些任务中，机器可以会忽略掉一些内容，影响效果，比如语音合成、语言识别，可以通过Guided Attention处理
Guided Attention强迫你的attention有固定的样貌（顺序、限制）
Beam Search
寻找最优路径的一个比较好的方法（有时有用，有时没用，看任务本身，任务目标本事很明确，结果确定的比较有用；有时候decoder有一些随机性比较好，比如语音合成TTS）

exposure bias

在训练时，一直给Decoder 正确的数据进行训练，会产生正确的答案，但是在测试的时候可能会出错，一步错步步错，因为decoder是要利用上一个的输出进行预测，如果上一个就错了…这个现象叫exposure bias
解决办法：在decoder进行训练的时候就给一些噪声（错误数据）即Scheduled Sampling，但会伤害到transfomer的平行化能力

在这里插入图片描述

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。