Transformer & BERT 详解第1篇（共4篇）

最新推荐文章于 2024-06-29 08:43:48 发布

AliceWanderAI

最新推荐文章于 2024-06-29 08:43:48 发布

阅读量784

点赞数

分类专栏： deep-learning Transformer 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NXHYD/article/details/112498588

版权

本文深入探讨Transformer模型，从整体结构到关键组件如Encoder、Decoder、Positional Encoding和Self Attention，详细阐述了各部分的工作原理。Transformer在自然语言处理、计算机视觉等领域有广泛应用，通过Self Attention实现并行处理和高效捕获全局信息。

摘要由CSDN通过智能技术生成

本系列文章围绕以下几个主题来详细解读Transformer和BERT的原理和发展

Transformer 模型详解
Transformer在CV,NLP,推荐系统的发展与应用
BERT模型详解
BERT最新发展与应用

更多内容请关注公众号：AliceWanderAI

本篇文章：Transformer模型详解

整体结构
Encoder
Decoder
Positional Encoding
Self Attention
Add & Norm

1. 整体结构

Transformer主要由两大部分组成：Encoder & Decoder.

Encoder-Decoder模型可以基于CNN/RNN来构建。而Transformer是完全采用Self Attention机制来构建Encoder-Decoder模型结构的。

如下图所示。左边是Encoder的结构，它将输入Inputs 映射成隐藏层的输出，隐藏层的输出作为Decoder的输入的一部分，再解码成为自然语言序列。

2. Encoder

由Figure1 可以看出，Encoder的构件包括：

Input Embedding
Pos

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Transformer & BERT 详解第1篇（共4篇）

本系列文章围绕以下几个主题来详细解读Transformer和BERT的原理和发展Transformer 模型详解 Transformer在CV,NLP,推荐系统的发展与应用 BERT模型详解 BERT最新发展与应用本篇文章：Transformer模型详解整体结构 Encoder Decoder Positional Encoding Self Attention Add & Norm1. 整体结构Transformer主要由两大部分组成：Encoder &amp.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。