【机器学习300问】131、什么是Attention机制？简单Seq2Seq模型加上注意力机制为例说明。

原创于 2024-06-23 23:30:57 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

139 篇文章

订阅专栏

想象一下，在一个喧闹的派对上，你正试图听清楚一位朋友在说什么。尽管周围噪声不断，但你的大脑有一种神奇的能力，能让你“聚焦”在这位朋友的声音上，忽略其他干扰——这就是注意力机制的精髓所在。

上面这个小例子，给大家直观的感受一下什么是注意力，下面本文会以简单的Seq2Seq模型加上Attention机制来举例。本文不涉及transformer，后续写文章单独介绍。

一、什么是注意力机制？

注意力机制是一种通过模仿人类的注意力过程来增强神经网络模型性能的机制。在机器学习中，注意力机制借鉴了人类注意力的这一特性，允许模型在处理数据时能够“聚焦”于当前输入序列的某些部分，而不是将全部输入数据视为等同重要。

在没有注意力机制的序列处理模型中，网络需要处理整个输入序列来生成输出，这可以通过全序列的信息压缩与提取来完成。然而，这种方法在序列较长或相关信息分布不均时，会导致信息丢失、梯度消失或爆炸等问题。

由于梯度消失问题，标准的Seq2Seq模型难以捕捉长序列数据中的长距离依赖关系。虽然LSTM和GRU等变体在一定程度上缓解了这个问题，但在非常长的序列上依然存在挑战。

在标准的Seq2Seq模型中，任意长度的输入序列都被编码到一个固定大小的编码向量中。这使得模型需要将所有的信息压缩到这个向量中，而且无法保证足够的信息不丢失。

为了解决上述限制，研究者们引入了注意力机制，注意力机制的关键是让上下文向量能访问每一个输入。它引入了一种权重分配的手段，使得模型可以为输入序列中的每个元素分配一个权重，表明了每个元素对当前任务的重要性程度。

例如，在机器翻译任务中，当模型在翻译一个词时，它可以分配更高的权重给源文本中与该词语义最为相关的部分。这样，模型不需要一次性处理整个输入序列，而是可以专注于当前任务最为关键的信息，从而提高模型的性能和准确率。

这里还是用机器翻译任务，简单的Seq2Seq模型加上简单的注意力/加权求和为例。

首先，Seq2Seq模型逐个时间步读入输入序列 $X = (x_1, x_2, ..., x_T)$ ，在每个时间步 $t$ 生成隐藏状态 $h_t$ 。这里的 $h_t$ 是对之前所有输入信息的编码。

当解码器准备生成输出序列时，对于每个输出时间步 $t'$ ，计算当前解码器状态 $s_{t'-1}$ 与每个编码器隐藏状态 $h_t$ 的相似度 $e_{t',t}$ （通常是使用点积或其他可学习的方式进行计算）。

用softmax函数将 $e_{t',t}$ 归一化，得到注意力权重 $\alpha_{t',t}$ ，这表示在生成当前输出 $y_{t'}$ 时，输入序列中的每个元素 $x_t$ 的重要程度。

使用注意力权重作为加权系数，将编码器隐藏状态序列加权求和，计算得到当前时间步 $t'$ 的上下文向量 $c_{t'} = \sum_{t=1}^{T} \alpha_{t',t} h_t$

上下文向量 $c_{t'}$ 包含了输入序列中与当前解码器状态最相关部分的信息。

结合解码器当前的隐藏状态 $s_{t'-1}$ 和上下文向量 $c_{t'}$ 以及有时的输入 $x_{t'}$ ，通过一些转换（如非线性变换、线性变换或其他）生成当前输出 $y_{t'}$ 。这可以是一个词的概率分布，用于序列生成任务，如机器翻译或文本摘要。

在每个时间步中，注意力机制允许模型动态地决定在生成输出时应该“注意”输入序列的哪些部分，使得模型可以更加聚焦于相关信息，提高了序列处理任务的性能。

在实践中，通常会使用更复杂和高效的变种，如长短期记忆网络（LSTM）和门控循环单元（GRU）来代替简单RNN，它们都可以集成注意力机制来提升模型的能力。除此之外注意力机制还衍生出了多头注意力、自注意力等。