【论文阅读笔记】An Introductory Survey on Attention Mechanisms in NLP Problems

发布时间:2018.11  arxiv 

本文是一篇短小精干的注意力机制综述文章,比较值得一读。文章从最基本的注意力机制介入,介绍了注意力机制近年来的变种。文章将近年来的注意力机制分为五个大类并介绍了注意力机制效果评估的方式,最后简单提了一下注意力机制目前的热门发展方向。

最基础的注意力模型来源于2014年Bengio等发布的经典文章《Neural machine translation by jointly learning to align and translate》,此处不贴公式,对比传统机器翻译模型和加入了注意力机制的模型如下如下图,其中注意力机制产生下一个隐藏状态时除了依靠前一个隐藏状态和预测出的单词外,还需要隐藏态的加权和(注意力机制)。

近几年来其他的变种包括:

其中Multi-dimentional Attention用于捕捉不同表示空间中术语之间的交互。这种多维方法的缺点是,强指示性元素可以同时吸引多种类型的注意力,因此降低了其表示能力。

Hierarchical Attention将文本考虑为层层嵌套的结构,比如character ->word ->sentence->document,分层注意力机制或采用自顶向下或采用自底向上的方式来从全局和局部识别文章的细节和中药信息。

Self-attention机制将句子中每一个词和句子内部的其他词进行相似度匹配,得到注意力机制,旨在捕捉句子内部各个词语之间的依赖关系。在Google2017年的大作《Attention is all you need》中有具体应用。

Memory-based Attention机制将注意力分数的计算过程重新解释为根据查询q进行soft memory addressing的过程,将编码视为从基于注意力分值的存储中查询注意力分支的过程。从重用性的角度上,这种注意力机制能够通过迭代内存更新(也称为多跳)来模拟时间推理过程,逐步将注意力引导到正确的答案位置,对于答案和问题没有直接关系的复杂问答效果较好。从灵活性角度看,可以人工设计key的嵌入以更好的匹配问题,人工设计value的嵌入来更好的匹配答案。这种分开设计,能够分段地注入领域知识,使模块之间的通信更有效,并将模型推广到传统问答之外的更广泛的任务。

Task-specific Attention泛化能力不如以上几种,但是是针对具体任务设计和优化,所以在特定任务上效果较好。

接下来,文章从定量和定性的角度就注意力机制的评估进行了简述。就定量的评估方式而言,虽然内在的评价方法可以精确地测量性能,但它们往往局限于特定的任务,严重依赖于标记数据的丰富性,外在的评估方法使用更广泛但从结果中很难评判,是否提升的效果与注意力机制的运用有关。就定性的评估方式而言,评估主要使用热力图。

最后,文章指出在预训练中的embedding是比较有前景的方向,其实也就说目前大热的Google BERT模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值