Transformer模型解读

本文深入解析Transformer模型,该模型由谷歌于2017年推出,是机器翻译和NLP领域的重要里程碑。核心是注意力机制,包括multi-head attention和feed forward。encoder由多层相同模块组成,每层包含self-attention和feed forward。decoder作为自回归模型,增加了解码过程中的self-attention和inter-attention。Transformer通过position encoding引入位置信息,并采用残差连接和层归一化提升性能。
摘要由CSDN通过智能技术生成

NLP系列模型解析:
Transformer:https://blog.csdn.net/lppfwl/article/details/121084602
GPT系列:https://blog.csdn.net/lppfwl/article/details/121010275
BERT:https://blog.csdn.net/lppfwl/article/details/121124617

Transformer:Attention is all you need ,谷歌2017年针对机器翻译推出来的模型,是后面GPT、BERT等发展的基础模型。附上原论文:https://paperswithcode.com/paper/attention-is-all-you-need?

Transformer提出了一种全新的NLP模型架构,模型的全部重点都在于attention机制,完全不同于以往的RNN和CNN。先上模型结构图,接下来就根据这张图进行一点点的解析。
在这里插入图片描述

Transformer模型由两部分组成:encoder和decoder,这也是以往的机器翻译任务通用的模型结构。encoder负责提取输入inputs的语义信息,decoder负责根据encoder输出的语义特征信息生成翻译的结果,以往的机器翻译模型还会在decode的时候针对encoder输出的语义特征加上注意力机制来提升性能,但是这里的注意力只是作为辅助手段,而Transformer是将attention机制作为模型的核心。

ok,现在进入正题,先讲encoder。

encoder

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值