TensorFlow实现自注意力机制（Self-attention

最新推荐文章于 2024-07-06 02:20:31 发布

2401_83740189

最新推荐文章于 2024-07-06 02:20:31 发布

阅读量1k

点赞数 16

分类专栏： 2024年程序员学习文章标签： tensorflow 人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83740189/article/details/137447735

版权

本文介绍了如何在TensorFlow中实现自注意力机制，详细解析了SAGAN中使用的注意力模块，包括θ、φ和g的计算过程。通过1×1卷积进行特征变换，并利用频谱归一化加速计算。此外，还展示了自定义层的构建方法，包括构建过程中的关键步骤和代码示例。

摘要由CSDN通过智能技术生成

下图说明了如何从查询中生成注意力图：

注意力图

上图红，最左边一列的图是带有点标记的查询 (queries) 的图像。接下来的五个图像显示了通过查询获得的注意力图。顶部的第一个注意力图查询兔子的一只眼睛；注意图的两只眼睛周围有更多白色区域(指示重要区域)，其他区域接近全黑(重要性较低)。

有多种实现自注意力的方法。下图显示了 SAGAN 中的所使用的注意力模块，其中 θ θ θ， φ φ φ 和 g g g 对应于键，查询和值：

自注意力机制

深度学习中的大多数计算都是为了提高速度性能而矢量化的，而对于自注意力也没有什么不同。如果为简单起见忽略 batch 维度，则 1×1 卷积后的激活将具有 (H, W, C) 的形状。第一步是将其重塑为形状为 (H×W, C) 的2D矩阵，并使用 θ θ θ 与 φ φ φ 的矩阵相乘来计算注意力图。在SAGAN中使用的自注意力模块中，还有另一个1×1卷积，用于将通道数恢复到与输入通道数相同的数量，然后使用可学习的参数进行缩放操作。

Tensorflow实现自注意力模块

首先在自定义层的build()中定义所有 1×1 卷积层和权重。这里，使用频谱归一化函数作为卷积层的核约束：

class SelfAttention(L

最低0.47元/天解锁文章

关注

16
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。