本文介绍attention起源+原理和一些应用
一、简介
Attention机制通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素。关于这个的解释个人感觉计算机视觉比NLP根据有直接的解释性。
注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时,会通过快速扫描全局图像,获得需要重点关注的目标区域,也就是注意力焦点。然后对这一区域投入更多的注意力资源,以获得更多所需要关注的目标的细节信息,并抑制其它无用信息。
NLP领域中较早的应该是Encoder-Decoder框架下的attention在机器翻译中得到较好的应用效果。但实际上机器翻译算法还是一般被学术界偏爱,工业界其实所覆盖的面还不算广。真正令attention在NLP中大火并在各个子领域得到应用的还是《attention is all you need》这篇文章提出的方法,应在之后应用于NLP大规模两段式模型中并陆续突破达到新的sota效果。attention model示意图
二、attention
关于 hard attention计算方式无非是在decode前面加一个权重矩阵。但不同于随机矩阵来训练权重,这里是采用了前向网络的输出来进行attention权重矩阵计算,并加入训练。
三、Self-AttentionScaled D