【自然语言处理】： transformer原理实现

最新推荐文章于 2024-06-24 02:02:46 发布

Geeksongs

最新推荐文章于 2024-06-24 02:02:46 发布

阅读量315

点赞数

文章标签：神经网络深度学习人工智能算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Geeksongs/article/details/121240571

版权

Transformer是一种用于序列到序列任务的神经网络模型，它通过引入自注意力机制改进了传统的seq2seq模型。Encoder由多个自注意力层组成，每个层包含自注意力、残差连接和层归一化。Decoder在Encoder的基础上增加了遮蔽多头注意力，确保当前位置只能依赖于已生成的先前位置。整个模型利用Encoder和Decoder的交互进行信息传递，适合大规模并行计算，提高了训练效率。

摘要由CSDN通过智能技术生成

1.seq2seq

一般在我们序列模型当中，都会分为encoder和decoder两个部分，如下图所示：

而我们的transformer变形金刚其实相当于是一种对我们seq2seq的一种升级版本，也就是在seq2seq上加上了self-attention，也就变成了我们的transformer，我们可以看到transformer的结构如下所示：

在上面这张图当中，左边的就是我们的的encoder，而右边则是我们的decoder。只是这个encoder和decoder都特别的大哈哈哈

2.Encoder的架构

encoder的架构总体来说是这样的，我们输入一排向量，然后相应的，会输出一排向量。而在我们的输入和输出之间，输入最先经过的层是一个self-attention层。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【自然语言处理】： transformer原理实现

1.seq2seq一般在我们序列模型当中，都会分为encoder和decoder两个部分，如下图所示：而我们的transformer变形金刚其实相当于是一种对我们seq2seq的一种升级版本，也就是在seq2seq上加上了self-attention，也就变成了我们的transformer，我们可以看到transformer的结构如下所示：在上面这张图当中，左边的就是我们的的enco...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。