Tensorflow实现Attention层

最新推荐文章于 2023-03-06 09:03:12 发布

置顶

罗豆豆、

最新推荐文章于 2023-03-06 09:03:12 发布

阅读量6.6k

点赞数 3

本文链接：https://blog.csdn.net/luodoudoudou/article/details/90634010

版权

本文介绍了Attention机制的起源和本质，将其比喻为软寻址方式，并详细解释了在自然语言处理中如何使用TensorFlow实现Attention层，包括关键步骤：相似度计算、概率转换和点乘权重分配。通过代码示例展示了参数初始化和矩阵运算的过程。

摘要由CSDN通过智能技术生成

Attention机制最近很火啊，万物皆可Attention，为啥呢？
首先，Attention是怎么来的？在十月一号的景点，你给你心爱的拍了一张照片，然后你看着这张照片，眼睛里满满都是你心爱的人，为什么呢，因为你给你心爱的都在图像区域分配较大权重，而给**地方分配了较小的权重，所以这张照片主要描述的内容就是你心爱的人，无论你怎么构图，把他放1/3处，左下角，右上角，这张照片的主要内容都不会改变。这个就是Attention最初思想的由来。所以Attention的本质就是一个权重分配机制。
有超级多的博客说了Attention是一种软寻址方式，其实很有道理，但是对于大部分而言就感觉听起来就很难，所以我们换个角度理解，所以呢当你做Attention的时候，你要明确两个东西，第一个就是你要给什么东西做Attention，第二个，什么东西决定你的权重。做Attention的东西比如说，每一个字有N维字向量，每一维字向量（向量级别），每一部分字向量（比如0-25维，25-50维，50-75维）Bert(Tranformer)的思路，每一个字的所有向量，每一个词。这些都可以进行Attention。上述的做Attention的部分就是Key和Value,接下来是你需要选择另外一个向量对他进行权重分配就是Query。
由于我不会上传图片。。。就口述一下，在自然语言中一般K=V（在Google的《Attention is all you need》中K=V=Q，这个叫自注意力机制，用自己给自己定权重，喜欢Attention机制的人这篇文章应该是必读的&#x

最低0.47元/天解锁文章

罗豆豆、

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
Tensorflow实现Attention层

Attention机制最近很火啊，万物皆可Attention，为啥呢？首先，Attention是怎么来的？在十月一号的景点，你给你心爱的拍了一张照片，然后你看着这张照片，眼睛里满满都是你心爱的人，为什么呢，因为你给你心爱的都在图像区域分配较大权重，而给**地方分配了较小的权重，所以这张照片主要描述的内容就是你心爱的人，无论你怎么构图，把他放1/3处，左下角，右上角，这张照片的主要内容都不会改变。...
复制链接

扫一扫