Transformer模型解读

最新推荐文章于 2024-07-13 22:57:00 发布

lppfwl

最新推荐文章于 2024-07-13 22:57:00 发布

阅读量1.3k

点赞数

分类专栏： NLP 文章标签： transformer 机器翻译自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lppfwl/article/details/121084602

版权

本文深入解析Transformer模型，该模型由谷歌于2017年推出，是机器翻译和NLP领域的重要里程碑。核心是注意力机制，包括multi-head attention和feed forward。encoder由多层相同模块组成，每层包含self-attention和feed forward。decoder作为自回归模型，增加了解码过程中的self-attention和inter-attention。Transformer通过position encoding引入位置信息，并采用残差连接和层归一化提升性能。

摘要由CSDN通过智能技术生成

NLP系列模型解析：
Transformer：https://blog.csdn.net/lppfwl/article/details/121084602
GPT系列：https://blog.csdn.net/lppfwl/article/details/121010275
BERT：https://blog.csdn.net/lppfwl/article/details/121124617

Transformer：Attention is all you need ，谷歌2017年针对机器翻译推出来的模型，是后面GPT、BERT等发展的基础模型。附上原论文：https://paperswithcode.com/paper/attention-is-all-you-need?

Transformer提出了一种全新的NLP模型架构，模型的全部重点都在于attention机制，完全不同于以往的RNN和CNN。先上模型结构图，接下来就根据这张图进行一点点的解析。
在这里插入图片描述

Transformer模型由两部分组成：encoder和decoder，这也是以往的机器翻译任务通用的模型结构。encoder负责提取输入inputs的语义信息，decoder负责根据encoder输出的语义特征信息生成翻译的结果，以往的机器翻译模型还会在decode的时候针对encoder输出的语义特征加上注意力机制来提升性能，但是这里的注意力只是作为辅助手段，而Transformer是将attention机制作为模型的核心。

ok，现在进入正题，先讲encoder。

encoder

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型解读

Transformer：Attention is all you need ，谷歌2017年针对机器翻译推出来的模型，是后面GPT、BERT等发展的基础模型。附上原论文：https://paperswithcode.com/paper/attention-is-all-you-need?Transformer提出了一种全新的NLP模型架构，模型的全部重点都在于attention机制，完全不同于以往的RNN和CNN。先上模型结构图，接下来就根据这张图进行一点点的解析。Transformer模型由两部分组
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。