seq2seq中的变形金刚

最新推荐文章于 2024-02-02 06:39:00 发布

_Hsiung

最新推荐文章于 2024-02-02 06:39:00 发布

阅读量178

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bbwqsb/article/details/117530940

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

这里写目录标题

序言

seq2seq2 Model从14年提出，到19年google提出的transformer成为主流印象。一般包括Encoder和Decoder两个部分。

总体结构

在这里插入图片描述

Encoder

总体来说：输入一个vector，输出一个vector（RNN,CNN,Self-Attention都可以做到）

Encoder的简单示例

每一个Block是多个layer连接，如这里面的一个Block经过一个自注意力和FC层
Encoder示意图

transformer中的Encoder（一层）

在这里插入图片描述

Decoder

全局总览

主要分为NT(输出的再作为输入)和NAT(一起输出)
在这里插入图片描述

表中有个END符号表示输入该结束了。
在这里插入图片描述

Begin可能是随机一个One-hot向量吧，每个输入都是One-hot向量形式。
在这里插入图片描述

Masked Multi-Head Attention

在这里插入图片描述

特点：产生 $b^i$ 只考虑 $a^1$ 到 $a^i$ 的输入。
原因：因为Decoder中输入是一个一个产生的。
在这里插入图片描述

Cross Attention（Encoder和Decoder的互动）

这一块就是Cross Attention
在这里插入图片描述
Cross Attention内部实现

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
seq2seq中的变形金刚

这里写目录标题序言总体结构EncoderEncoder的简单示例transformer中的EncoderDecoder全局总览Masked Multi-Head Attention序言seq2seq2 Model从14年提出，到19年google提出的transformer成为主流印象。总体结构Encoder总体来说：输入一个vector，输出一个vectorEncoder的简单示例每一个Block是多个layer连接，如这里面的一个Block经过一个自注意力和FC层transforme
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。