注意力机制

最新推荐文章于 2024-07-13 07:30:00 发布

端木亽

最新推荐文章于 2024-07-13 07:30:00 发布

阅读量1.6k

点赞数 1

分类专栏：图像处理基础文章标签： attention 注意力机制图像处理深度学习

本文链接：https://blog.csdn.net/duanmuji/article/details/89044509

版权

图像处理基础专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Attention机制是什么？

说到底attention实际上是一个加权求和，用于计算每个与attention关注的对象（其实是一个向量）的相关程度。

step1 设计一个打分函数 $f i$ ，针对每个 $h i$ ，计算出一个score $s i$ 。而 $s i$ 打分的依据，就是 $h i$ 与attention所关注的对象(其实就是一个向量)的相关程度，越相关，所得 $s i$ 越大。
step2 对所得到的k个score si(i=1,2,…,k),通过一个softmax函数，得到最后的权重 $α i$ ，即：
$α i = s o f t m a x (s i)$
step3 将 $α i$ 与 $v a l u e i$ 对应相乘再求和，得到最终的attention value.

打分函数主要有以下几种，如dot、general、concat和MLP等。公式如下：
在这里插入图片描述

Attention的设计

对于打分函数 $f i$ 在论文”Dynamic Attention Deep Model for Article Recommendation by Learning Human Editors’Demonstration”中的Attention Mechanism章节给了较为全面的概括。大体分为三类：

Location-based Attention
General Attention
Concatenation-based Attention

Location-based Attention

关注的图像仅一个重要特征
Location-based的意思就是，这里的attention没有其他额外所关注的对象，即attention的向量就是 $h i$ 本身，因而 $f$ 的设计如下：
$s i = f (h i) = a c t i v a t i o n (W T h i + b)$

其种 $W \in R d$ , $b \in R$ , $s i \in R$ ，这里的激活函数activation，常见的有三种：1）tahn，2）relu，3）y=x（即没有激活函数）

参考文献 [1]中有具体的例子，都有着明显的套路。

General Attention 不常见略过

Concatenation-based Attention

关注的图像有多个特征情况
$f$ 就是被设计出来衡量 $h i$ 和 $h t$ 之间相关性的函数。一般是这么设计的：
$si=f(hi，ht)=v^Tactivation(W1hi+W2ht+b)$

这里 $W 1 \in R d * d$ , $W 2 \in R d * d t$ , $b \in R d$ , $v \in R d$ , $s i \in R$ ，一般情况下 $d t = d$ 。
函数的描述的意思就是，希望通过W1,W2的对齐操作，使得 $h i$ 和 $h t$ 的特征能够对应上。然后再通过v计算score。
参考文献 [1]中有具体的例子，都有着明显的套路。

多层attention

多为两层，一层用于针对多个不同特征对原始图像打分，另一层用于结合多个特征分摊权重。

参考文献

端木亽

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
注意力机制

Attention机制是什么？说到底attention实际上是一个加权求和，用于计算每个与attention关注的对象（其实是一个向量）的相关程度。step1 设计一个打分函数fif ifi，针对每个hihihi，计算出一个scoresisisi 。而sisisi打分的依据，就是hihihi与attention所关注的对象(其实就是一个向量)的相关程度，越相关，所得sisisi越大。step...
复制链接

扫一扫

专栏目录