P11机器学习--李宏毅笔记（Transformer Encoder）

最新推荐文章于 2024-05-08 21:29:03 发布

温涛

最新推荐文章于 2024-05-08 21:29:03 发布

阅读量406

点赞数 1

分类专栏：机器学习李宏毅文章标签：机器学习 transformer 人工智能深度学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013373155/article/details/127395952

版权

机器学习李宏毅专栏收录该内容

14 篇文章 5 订阅

订阅专栏

目录

residual connection

Layer normolization

Fully Connect network

Transformer也是seq2seq模型的一种，seq2seq模型有着广泛的运用，例如机器翻译，语音辨识，其实大多数问题都能转换成QA（Question Answer）然后用seq2seq解决。

Encoder

Encoder就是整体这一个架构，一个input然后经过Block然后输出再经历Block，下面我们来介绍每个Block里面的内容

residual connection

将输入传入self-attention，然后输出的α考虑了每一个输入然后再加上它的input这就叫residual connection

Layer normolization

将rasidual connection后的值传入norm层，norm层采用的是Layer Normlization，这个和我们之前将的feature normolization不一样，feature normolization是把不同feature的同一dimension拿来算，而Layer Normlization是把同一feature的不同dimension拿来算。

这里的上面写错了，应该是（x-m）/σ

Fully Connect network

把Layer normlization后的结果输出到Full Connect network里然后再进行一次rasidual connect再加起来传入到一个Layer normolization里取然后完成了block的输出

Encoder架构

这里就是先输入一个然后经历Emd然后加上位置信息传入多头注意力然后经过一个Rasidual +Layernorm，然后输入到FC然后再做Rasidual +Layernorm。

改进

当然现在不是最好的，你可以进行改进

比如说在每一层input前加layer norm。。。。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。