【论文阅读笔记】An Introductory Survey on Attention Mechanisms in NLP Problems

最新推荐文章于 2020-04-14 18:24:33 发布

原创最新推荐文章于 2020-04-14 18:24:33 发布

· 1.9k 阅读

4 ·

版权

机器学习专栏收录该内容

96 篇文章

订阅专栏

本文综述了注意力机制的发展，从2014年Bengio等人的开创性工作开始，介绍注意力机制的五大类别，包括多维度、层级、自注意力、基于记忆及任务特异性注意力。文章还探讨了注意力机制的评估方法及其在预训练embedding中的应用前景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

发布时间：2018.11 arxiv

本文是一篇短小精干的注意力机制综述文章，比较值得一读。文章从最基本的注意力机制介入，介绍了注意力机制近年来的变种。文章将近年来的注意力机制分为五个大类并介绍了注意力机制效果评估的方式，最后简单提了一下注意力机制目前的热门发展方向。

最基础的注意力模型来源于2014年Bengio等发布的经典文章《Neural machine translation by jointly learning to align and translate》，此处不贴公式，对比传统机器翻译模型和加入了注意力机制的模型如下如下图，其中注意力机制产生下一个隐藏状态时除了依靠前一个隐藏状态和预测出的单词外，还需要隐藏态的加权和（注意力机制）。

近几年来其他的变种包括：

其中Multi-dimentional Attention用于捕捉不同表示空间中术语之间的交互。这种多维方法的缺点是，强指示性元素可以同时吸引多种类型的注意力，因此降低了其表示能力。

Hierarchical Attention将文本考虑为层层嵌套的结构，比如character ->word ->sentence->document，分层注意力机制或采用自顶向下或采用自底向上的方式来从全局和局部识别文章的细节和中药信息。

Self-attention机制将句子中每一个词和句子内部的其他词进行相似度匹配，得到注意力机制，旨在捕捉句子内部各个词语之间的依赖关系。在Google2017年的大作《Attention is all you need》中有具体应用。

Memory-based Attention机制将注意力分数的计算过程重新解释为根据查询q进行soft memory addressing的过程，将编码视为从基于注意力分值的存储中查询注意力分支的过程。从重用性的角度上，这种注意力机制能够通过迭代内存更新(也称为多跳)来模拟时间推理过程，逐步将注意力引导到正确的答案位置，对于答案和问题没有直接关系的复杂问答效果较好。从灵活性角度看，可以人工设计key的嵌入以更好的匹配问题，人工设计value的嵌入来更好的匹配答案。这种分开设计，能够分段地注入领域知识，使模块之间的通信更有效，并将模型推广到传统问答之外的更广泛的任务。

Task-specific Attention泛化能力不如以上几种，但是是针对具体任务设计和优化，所以在特定任务上效果较好。

接下来，文章从定量和定性的角度就注意力机制的评估进行了简述。就定量的评估方式而言，虽然内在的评价方法可以精确地测量性能，但它们往往局限于特定的任务，严重依赖于标记数据的丰富性，外在的评估方法使用更广泛但从结果中很难评判，是否提升的效果与注意力机制的运用有关。就定性的评估方式而言，评估主要使用热力图。

最后，文章指出在预训练中的embedding是比较有前景的方向，其实也就说目前大热的Google BERT模型。