attention机制_一文看懂 Bahdanau 和 Luong 两种 Attention 机制的区别

最新推荐文章于 2025-01-01 23:21:33 发布

weixin_39722563

最新推荐文章于 2025-01-01 23:21:33 发布

阅读量655

点赞数

文章标签： attention机制

Attention 机制作为近年来自然处理领域最重要的理念之一，在许多 NLP 子领域中得到了广泛应用。以注意力机制为核心的 Transformer、BERT、GPT 等模型也在各类任务 benchmark 不断屠榜。其中，Luong Attention 和 Bahdanau Attention 是最经典的两种注意力机制。二者在理念上大致相同，但在实现细节上存在许多区别。

简单来说，Luong Attention 相较 Bahdanau Attention 主要有以下几点区别：

注意力的计算方式不同
在 Luong Attention 机制中，第 t 步的注意力
是由 decoder 第 t 步的 hidden state

与 encoder 中的每一个 hidden state

加权计算得出的。而在 Bahdanau Attention 机制中，第 t 步的注意力

是由 decoder 第 t-1 步的 hidden state

与 encoder 中的每一个 hidden state

加权计算得出的。
decoder 的输入输出不同
在 Bahdanau Attention 机制中，decoder 在第 t 步时，输入是由注意力
与前一步的 hidden state

拼接（concatenate）得出的，得到第 t 步的 hidden state

并直接输出

。而 Luong Attention 机制在 decoder 部分建立了一层额外的网络结构，以注意力

与原 decoder 第 t 步的 hidden state

拼接作为输入，得到第 t 步的 hidden state

并输出

。