引言
注意力机制(Attention Mechanism)是在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的权重,通俗来讲,就是从关注全部到关注重点。
比如,我们的视觉系统就是一种attention mechanism,将有限的注意力集中在重点信息上,达到节省资源、快速获得有效信息的目的。
AI领域中attention mechanism的位置,或者说是宏观上的包含关系如下:
NLP >--> BERT、GPT >--> Transformer >--> Attention
Attention的3大优点:
- 参数少。相较于CNN、RNN,加入attention的模型复杂度更小,参数更少,对算力的要求也更小。
- 速度快。Attention解决了RNN不能并行计算的问题。因为attention mechanism每一步的计算都不依赖于上一步的计算结果,因此,其可以和CNN一样实现并行处理。
- 效果好。Attention会自主挑重点,就算是长文本,也能从中间抓住重点,从而不丢失重要的信息。
Attention的原理
Attention mechanism经常会和encoder-decoder模型结合在一起介绍,但是attention mechanism并不一定要在encoder-decoder框架下使用。接下来将从故事和专业两方面来介绍attention mechanism,如果只是大概了解的话,看了故事简介就可以明白了。如果想了解专业的知识点,就继续往下看。
故事举例
比图书馆(source)里有许多书籍(value)