TensorFlow实现自注意力机制（Self-attention），Spring都没弄明白凭什么拿高薪

最新推荐文章于 2024-04-07 07:42:40 发布

imtokenmax合约众筹

最新推荐文章于 2024-04-07 07:42:40 发布

阅读量661

点赞数 20

分类专栏： 2024年程序员学习文章标签： tensorflow 人工智能 python

本文链接：https://blog.csdn.net/imtokenmax/article/details/136976674

版权

本文介绍了自注意力机制在计算机视觉中的应用，特别是在TensorFlow中如何实现。文章详细阐述了自注意力的工作原理，包括键、查询和值的概念，并通过一个肖像画的例子解释了其计算过程。此外，还提到了SAGAN中的自注意力模块实现，并提供了自定义TensorFlow层的示例代码。

摘要由CSDN通过智能技术生成

- 计算机视觉中的自注意力
Tensorflow实现自注意力模块

自注意力机制(Self-attention)

自注意力机制 (Self-attention) 随着自然语言处理 (Natural Language Processing, NLP) 模型（称为“Transformer”）的引入而变得流行。在诸如语言翻译之类的NLP应用程序中，模型通常需要逐字阅读句子以理解它们，然后再产生输出。Transformer问世之前使用的神经网络是递归神经网络 (Recurrent Neural Network, RNN) 或者其变体，例如长短期记忆网络 (Long Short-Term Memory, LSTM)。 RNN 具有其内部状态，能够更好的处理序列信息，例如句子中前面的单词输入和后面的单词输入是有关系的。但是 RNN 也具有其缺陷，例如当单词数量增加时，那么第一个单词的梯度就可能消失。也就是说，随着RNN读取更多单词，句子开头的单词逐渐变得不那么重要。

Transformer 的处理方式有所不同。它会一次读取所有单词，并权衡每个单词的重要性。因此，更多的注意力集中在更重要的单词上，因此也称为注意力。

而自注意力机制是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。自注意力是最新的NLP模型 (例如BERT和GPT-3) 的基石。

计算机视觉中的自注意力

首先简单回顾下卷积神经网络 (Convolutional Neural Networks, CNN) 的要点：CNN 主要由卷积层组成。对于卷积核大小为 3×3 的卷积层，

最低0.47元/天解锁文章

imtokenmax合约众筹

关注

20
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。