【transformer】|李宏毅 transformer encoder

最新推荐文章于 2024-08-29 18:15:49 发布

rrr2

最新推荐文章于 2024-08-29 18:15:49 发布

阅读量258

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35608277/article/details/118163866

版权

seq2seq

结构通常有编解码器
在这里插入图片描述

可以用于语音-文字识别，不同语言文字翻译、语音-文字翻译
输出向量维度由模型决定
在这里插入图片描述

用于目标检测
在这里插入图片描述

transformer结构

在这里插入图片描述

encoder

在这里插入图片描述
多个模块处理

具体来说

蓝色输入与经过自注意模块输出做residual相加后，经过层正则化（对一个输入各个维度求均值方差，而不是BN在一个批次同一个维度）
输入到FC层，再跟输入做risidual相加再层正则化
得到最终输出

在这里插入图片描述
总的就是如下图（输入加入了顺序考虑，加了位置向量），重复Nx次

在这里插入图片描述

可以改进encoder的样子
在这里插入图片描述

为什么Layer Norm?

参考
https://zhuanlan.zhihu.com/p/126749311?from_voters_page=true

PowerNorm
https://arxiv.org/pdf/2003.07845.pdf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。