软注意力和硬注意力的对比

最新推荐文章于 2024-07-25 12:32:58 发布

KPer_Yang

最新推荐文章于 2024-07-25 12:32:58 发布

阅读量3.9k

点赞数 9

分类专栏：机器学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/KPer_Yang/article/details/126356818

版权

机器学习专栏收录该内容

87 篇文章 18 订阅

订阅专栏

软注意力和硬注意力的对比

软注意力（确定）：

软（确定性）注意力机制使用所有键的加权平均值来构建上下文向量。对于软注意力，注意力模块相对于输入是可微的，因此整个系统仍然可以通过标准的反向传播方法进行训练。软注意力数学描述如下¹：
$\begin{aligned} \pmb{e} &= f(\pmb{q},\pmb{k}) \\ \pmb{\alpha}&=softmax(\pmb{e})=\frac{exp(e_i)}{\sum_{k=1}^nexp(e_k)} \\ \pmb{c}&=\sum_{i=1}^{n}\alpha_i\pmb{v}_i \end{aligned}$
其中的 $f (q, k)$ 有很多种计算方法，如下表所示¹：

在这里插入图片描述

硬注意力（随机）：

硬（随机）注意力中的上下文向量是根据随机采样的键计算的。硬注意力可以实现如下¹：
$\widetilde{\alpha} \sim Multinoulli(\{\alpha_i\}) \\ \pmb{c}=\sum_{i=1}^{n}\widetilde{\alpha}_i\pmb{v}_i$
注：多项式分布²：多项式分布是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个。如果现在还是做n次试验，只不过每次试验的结果可以有m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项分布。概率密度函数是：
$P(X_1=k_1,X_2=k_2,\cdots,X_n=k_n)=\frac{n!}{(k_1!)(k_2!)\cdots(k_n!)}\prod \limits_{i=1}^n(p_{k_i})$

两者的对比和一种改进：

与软注意力模型相比，硬注意力模型的计算成本更低，因为它不需要每次都计算所有元素的注意力权重。然而，在输入特征的每个位置做出艰难的决定会使模块不可微且难以优化，因此可以通过最大化近似变分下限或等效地通过 REINFORCE 来训练整个系统。在此基础上，Luong 等人提出了机器翻译的全局注意力和局部注意力机制³。全局注意力类似于软注意力。局部注意力可以看作是硬注意力和软注意力之间的有趣混合，其中一次只考虑源词的一个子集。这种方法在计算上比全局注意力或软注意力更便宜。同时，与硬注意力不同，这种方法几乎在任何地方都是可微的，从而更容易实现和训练。

全局的注意力结构如下⁴：

在这里插入图片描述

局部的注意力结构如下⁴：

在这里插入图片描述

参考：

Niu Z, Zhong G, Yu H. A review on the attention mechanism of deep learning[J]. Neurocomputing, 2021, 452: 48-62. ↩︎ ↩︎ ↩︎
《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读 ↩︎
Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015. ↩︎
Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015.
ranslation[J]. arXiv preprint arXiv:1508.04025, 2015. ↩︎ ↩︎