注意力机制(数学公式)

人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性

计算机注意力机制是为了让卷积神经网络注意到他更加需要注意的地方 ,而不是什么都关注 。

分为三种注意力机制,空间注意力机制,通道注意力机制,以及两者的结合。                                                  

Attention(Q,K,V) = softmax( \frac{QKT}{\sqrt{dk}} )V

Q:query(查询)

K:key(键)

V:value(值)                                              

注意力机制(Self-Attention Mechanism)是Transformer模型的核心组成部分之一,它主要用于处理序列数据中的依赖性问题。在Transformer中,每个位置的输入向量会与其他所有位置交互并计算加权和,生成新的表示。其核心思想在于计算当前位置与所有其他位置之间的相关度。 数学上,给定一个输入序列 \( \mathbf{X} = [\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_n] \),其中每个元素是三维张量(\( d_{model} \)维的查询、键和值),自注意力可以分为三个步骤: 1. **查询(Q)**、**键(K)** 和 **值(V)** 计算: - 查询向量由线性变换得到:\(\mathbf{Q}_{i} = \mathbf{W}_Q \mathbf{x}_i\) - 键向量同样经过线性变换:\(\mathbf{K}_{j} = \mathbf{W}_K \mathbf{x}_j\) - 值向量也经过线性变换:\(\mathbf{V}_{j} = \mathbf{W}_V \mathbf{x}_j\) 2. **注意力得分(Attention Scores)**: - 通常采用点积相乘的方式计算注意力分数,即:\(\mathbf{A}_{ij} = \frac{\mathbf{Q}_{i} \cdot \mathbf{K}_{j}^T}{\sqrt{d_k}}\),其中 \(\sqrt{d_k}\) 是为了归一化。 3. **注意力权重(Attention Weights)**: - 使用softmax函数将注意力得分转换为概率分布,表示查询位置 \( i \) 对应所有键的位置 \( j \) 的关注程度:\(\alpha_{ij} = \text{softmax}(\mathbf{A}_{ij}) = \frac{\exp(\mathbf{A}_{ij})}{\sum_j \exp(\mathbf{A}_{ij})}\) 4. **上下文向量(Context Vector)**: - 最后,根据注意力权重对值向量求加权和,形成当前位置的上下文表示:\(\mathbf{Z}_{i} = \sum_j \alpha_{ij} \mathbf{V}_{j}\) 整体公式可以写为: \[ \mathbf{Z} = \text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left(\frac{\mathbf{Q} \mathbf{K}^{T}}{\sqrt{d_k}}\right) \mathbf{V} \] 其中,\( \mathbf{Z} \) 是输出的新序列,而 \(\mathbf{W}_Q\), \(\mathbf{W}_K\), \(\mathbf{W}_V\) 分别是不同参数矩阵。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李烁.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值