Transformer & BERT 详解第1篇(共4篇)

本文深入探讨Transformer模型,从整体结构到关键组件如Encoder、Decoder、Positional Encoding和Self Attention,详细阐述了各部分的工作原理。Transformer在自然语言处理、计算机视觉等领域有广泛应用,通过Self Attention实现并行处理和高效捕获全局信息。
摘要由CSDN通过智能技术生成

本系列文章围绕以下几个主题来详细解读Transformer和BERT的原理和发展

  • Transformer 模型详解
  • Transformer在CV,NLP,推荐系统的发展与应用
  • BERT模型详解
  • BERT最新发展与应用

更多内容请关注公众号:AliceWanderAI

本篇文章:Transformer模型详解

  1. 整体结构
  2. Encoder
  3. Decoder
  4. Positional Encoding
  5. Self Attention
  6. Add & Norm

1. 整体结构

Transformer主要由两大部分组成:Encoder & Decoder.

Encoder-Decoder模型可以基于CNN/RNN来构建。而Transformer是完全采用Self Attention机制来构建Encoder-Decoder模型结构的。

如下图所示。左边是Encoder的结构,它将输入Inputs 映射成隐藏层的输出,隐藏层的输出作为Decoder的输入的一部分,再解码成为自然语言序列。

2. Encoder

由Figure1 可以看出,Encoder的构件包括:

  • Input Embedding
  • Pos
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值