（深度学习）Transformer

最新推荐文章于 2024-09-27 19:17:02 发布

Hoyyyaard

最新推荐文章于 2024-09-27 19:17:02 发布

阅读量2.1k

点赞数

分类专栏：深度学习文章标签：线性代数矩阵几何学

本文链接：https://blog.csdn.net/KNIGHT_HOY/article/details/123752870

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

Transformer

Transformer

Application

for speech

实质上是seq2seq
语音辨识；机器翻译；语音翻译（比如闽南语–》中文由于很多语言没有文字）；共同的特征都是输入固定长度seq 输出的seq长度由模型自己决定
语音翻译

在这里插入图片描述

语音合成（输入中文输出闽南语的声音讯号）

for chatbot

在这里插入图片描述

NLP

大部分NLP可以看成是QA

Multi-label Classification

一个object对应多个labels
让model决定输出多少长的seq

在这里插入图片描述

Object Detection

在这里插入图片描述

seq2seq

包含一个Encoder和Decoder
Encoder和Decoder可以用self-attention去完成

Encoder

需要做的是输入一排向量输出一排向量
- 总体架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dV1yZaXz-1648265057036)(/home/hoyard/Pictures/2022-03-25 08-52-09 的屏幕截图.png)]

通过多个block
- 每个block input–》（self-attention + input）

在这里插入图片描述

self-attention的输出会加上输入的seq（residual）
再进行layer norm —》FC FC也采用residual的方式
FC —> Norm Layer

在这里插入图片描述

Decoder（Autoregressive）

将Encoder输出的向量放入Decoder
给decoder一个信号BOS（begin of seq）（one-hot vector）
decoder输出一个向量向量长度是字典的字数每一个字对应一个值比如中文就是字典里的字数
选择向量分数最大的输出那个字

在这里插入图片描述

输入第二个seq 循环上述步骤而第二个输入是decoder的第一个输出
故存在问题：一步错步步错

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YC6z0RAn-1648265057039)(/home/hoyard/Pictures/2022-03-26 09-02-45 的屏幕截图.png)]

Decode网络结构

在这里插入图片描述

Masked
- 产生信息时不能用当前seq后面的seq信息
- 产生b2

在这里插入图片描述

why masked：decoder里面是先有a1 才能产生 a2
Decoder 自己学习产生seq的长度故希望输出玩期望seq之后会输出end vector

在这里插入图片描述

NAT（None Autoregressive） Decoder

直接输入特定长度的Begin token 产生对应长度的vector
无法确定输入begin的长度
- learn一个classify model 输入是encoder的输入输出一个数字这个数字就是begin的长度
- 直接给出一个最大长度的begin 在output中找到end 之后的输出忽略
对比AT的优势：
- 平行处理
- 输出长度可控

在这里插入图片描述