工智能基础知识总结--什么是Transformer

resnetᅟᅠ

于 2024-01-07 16:45:00 发布

阅读量1.6k

点赞数 41

分类专栏：人工智能学习专栏深度学习专栏机器学习专栏文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Runnymmede/article/details/135367574

版权

人工智能学习专栏同时被 3 个专栏收录

113 篇文章 1 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

深度学习专栏

106 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

机器学习专栏

88 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

Transformer是Google2017年提出的Seq2Seq模型，完全基于Attention，摒弃了CNN和RNN。它在机器翻译、语音识别等领域表现出色，Encoder（如BERT）和Decoder（如GPT）是NLP领域的热点。Transformer结构包含Encoder和Decoder，每个子模块由self-attention和前馈神经网络组成。self-attention通过多头注意力机制捕捉词与词间的依赖关系，提高模型的并行性和表达能力。

摘要由CSDN通过智能技术生成

Transformer是什么

Transformer是Google在2017年的论文《Attention Is All You Need》中所提出的一种Seq2Seq的模型，该模型完全的抛弃了以往深度学习所使用的CNN、RNN等结构而全部使用Attention结构。Transformer的效果和并行性都非常好，其作为一个整体能被用于机器翻译、语音识别、文本摘要等传统Seq2Seq被应用的领域，基于其Encoder部分所构建的Bert、基于其Decoder部分所构建的GPT都是目前NLP领域十分热门的模型。
Transformer的结构
- 总体结构
  
  Transformer采用Seq2Seq架构，分为Encoder和Decoder模块，Encoder由6个Encoder子模块堆叠而成，Decoder由6个Decoder子模块堆叠而成。下图为其总览图：
  
  每一个Encoder子模块和Decoder子模块的内部结构如下图：

了解本专栏

超级会员免费看

关注

41
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

resnetᅟᅠ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。