transformer构建

最新推荐文章于 2024-04-13 20:32:27 发布

看不见我呀

最新推荐文章于 2024-04-13 20:32:27 发布

阅读量266

点赞数

分类专栏：基础算法文章标签： transformer 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/124971435

版权

基础算法专栏收录该内容

36 篇文章 3 订阅

订阅专栏

二，采用attention和self-attention搭建深度神经网络

multi-head self-attention

此时输出1个序列c1,c2,…cm.此时为single-head

L个单头注意力网络组成，每个单头注意力网络由三个参数。

每个单头自注意不会共享参数。共3l个参数。

multi-head attention

搭建深度神经网络的encoder

采用multi-head self-attention + fc 搭建encoder。

注意：此处fc会共享参数。

512*m：

M为输入序列的长度；512为输入x的维度。

由于block的输入和输出的维度相同，可以采用skip connection

每个block有两层。每个block之间不会共享参数。输入和输出的维度是一样的。

搭建深度神经网络的decoder网络

注意此处：x’,c,u,z均为512维向量。

最终的transformer模型

Transformer与rnn的对比

因此，tranformer与rnn相似，因此以前怎么用rnn，现在就怎么用transformer模型。

总结

看不见我呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。