使用TensorFlow手写Transformer

最新推荐文章于 2024-08-21 09:35:21 发布

CV算法恩仇录

最新推荐文章于 2024-08-21 09:35:21 发布

阅读量1.8k

点赞数 2

文章标签：深度学习机器学习计算机视觉算法面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaikeba0826/article/details/124452432

版权

本文详述如何使用TensorFlow逐步实现Transformer模型，涵盖Self-attention、Positional Encoding、Multi-head attention的原理与实现，以及Encoder过程。通过代码解析加深对Transformer内部运作的理解。

摘要由CSDN通过智能技术生成

原创：王稳钺
资料来源：张春阳

由于目前”调包“非常方便，往往让人忽略对于算法的深入理解。本文介绍使用TensorFlow从0实现Transformer，帮助从代码角度理解原理及其中的细节。

1. Self-attention

1.1 Self-attention原理

本文主要介绍代码实现，对于原理部分只做简单介绍。Self-attention主要想要实现的是句子中每一个token和其它token之间的相关性，将其融合起来的语义组成一个新的向量，计算过程如图。首先需要有QUERY和KEYS，在实际实现过程中，最开始就是两组随机的参数的向量。然后进行点乘，点乘后可以得到S值，点乘的过程就是在求相关性的过程。得到S后，经过softmax，得到权重W。之后再引入可学习参数VALUES，刚开始它也是一组随机值。用VALUES与W相乘，最终就可以得到新的向量。通过V1可以得到Y1，单纯使用V1表示时它只有自己的语意信息，而使用Y1时就包括了其与周边向量的关系。

1.2 Self-attention实现

生成矩阵作为输入，用来模拟V1,V2,V3，值是随机写的并没有特殊的含义。为了后续可以传入到模型中，将矩阵转换成tensor。

生成QUERY、KEYS、

最低0.47元/天解锁文章

CV算法恩仇录

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。