注意力机制(Attention Mechanism)是深度学习中的一种重要技术。
注意力机制的核心思想是让模型能够有选择性地关注输入序列中的不同部分,为输入序列的各个部分分配不同的权重,以此来突出对任务更关键的信息。
在自然语言处理中,注意力机制被广泛应用于机器翻译、文本分类、问答系统等任务。例如,在机器翻译任务中,当将源语言句子翻译为目标语言句子时,模型在生成目标语言的每个词时,通过注意力机制动态地决定对源语言句子中不同词的关注程度,从而更好地捕捉句子之间的语义对应关系。
在计算机视觉领域,注意力机制也被用于图像分类、目标检测等任务,使模型能够关注图像中的重要区域或特征。
一、发展历程
注意力机制的发展历程如下:
- 早期探索:1998 年,《A model of saliency-based visual attention for rapid scene analysis》一文发表,这是早期将注意力机制应用于计算机视觉领域的代表作,作者受早期灵长目视觉系统的神经元结构启发,提出了一种视觉注意力系统,可将多尺度的图像特征组合成单一的显著性图,利用动态神经网络按显著性顺序选择重点区域。
- 引起关注:2014 年,谷歌 DeepMind 发表的《Recurrent models of visual attention》使注意力机制受到广泛关注,该论文首次在 RNN 模型上应用注意力机制进行图像分类。
- NLP 领域应用:2015 年,