Transformer模型中的Attention机制

6 篇文章 0 订阅

导读:本文将结合《Attention is all your need》论文读后感和网络高赞热文结合,谈一谈我对transformer模型中使用的attention机制的理解。
首先,大家请花几分钟观察一下下图,把基本的要素,记住。后面会用到相关的概念。
在这里插入图片描述
上图左边是编码器,它由6层组成,每一层由2个子层,分别是多头自注意力层和前向反馈层,2层之间使用残差网络连接,在正则化之后。每一个子层的输出是LayerNorm=(x+Sublayer(x)),为了控制残差连接,模型中的所有子层,和嵌入层,模型的输出维度为512。
上图右边是解码器,解码器也由6层组成,解码器由3个子层组成。

Attention注意力机制
注意力机制被描述为对query和key-value输出的映射,它们都是向量,输出被计算为一个权重,权重被分别计算,通过一个与之相关的key。
在这里插入图片描述

建议大家去看原版论文,多通读几篇,相信会有所收获,想获取原版论文等相关学习资料,可以邮件cimteclbj@163.com联系我探讨NLP知识。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值