Transformer模型中的Attention机制

最新推荐文章于 2024-07-08 21:41:09 发布

lbertj

最新推荐文章于 2024-07-08 21:41:09 发布

阅读量348

点赞数

分类专栏： NLP 算法文章标签： transformer 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42419825/article/details/120339756

版权

NLP 同时被 2 个专栏收录

10 篇文章 3 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

导读：本文将结合《Attention is all your need》论文读后感和网络高赞热文结合，谈一谈我对transformer模型中使用的attention机制的理解。
首先，大家请花几分钟观察一下下图，把基本的要素，记住。后面会用到相关的概念。
在这里插入图片描述
上图左边是编码器，它由6层组成，每一层由2个子层，分别是多头自注意力层和前向反馈层，2层之间使用残差网络连接，在正则化之后。每一个子层的输出是LayerNorm=(x+Sublayer(x))，为了控制残差连接，模型中的所有子层，和嵌入层，模型的输出维度为512。
上图右边是解码器，解码器也由6层组成，解码器由3个子层组成。

Attention注意力机制
注意力机制被描述为对query和key-value输出的映射，它们都是向量，输出被计算为一个权重，权重被分别计算，通过一个与之相关的key。
在这里插入图片描述

建议大家去看原版论文，多通读几篇，相信会有所收获，想获取原版论文等相关学习资料，可以邮件cimteclbj@163.com联系我探讨NLP知识。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型中的Attention机制

导读：本文将结合《Attention is all your need》论文读后感和网络高赞热文结合，谈一谈我对transformer模型中使用的attention机制的理解。首先，大家请花几分钟观察一下下图，把基本的要素，记住。后面会用到相关的概念。上图左边是编码器，它由6层组成，每一层由2个子层，分别是多头自注意力层和前向反馈层，2层之间使用残差网络连接，在正则化之后。每一个子层的输出是LayerNorm=(x+Sublayer(x))，为了控制残差连接，模型中的所有子层，和嵌入层，模型的输出维度
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。