神经网络注意力机制--Attention in Neural Networks

原创 2017年10月16日 14:14:34

Attention in Neural Networks and How to Use It
http://akosiorek.github.io/ml/2017/10/14/visual-attention.html

这篇博文主要介绍神经网络中的注意力机制,代码实现了两个 soft visual attention

What is Attention? 首先来看看 注意力机制是什么?
Informally, a neural attention mechanism equips a neural network with the ability to focus on a subset of its inputs (or features): it selects specific inputs.
注意力机制可以让一个神经网络能够只关注其输入的一部分信息,它能够选择特定的输入。

attention is implemented as
这里写图片描述
f 是一个 attention network,其生成一个 attention vector a, 再讲 a 与输入 x 的 特征向量 z 相乘,这个 a 取值范围是 【0,1】,当我们说 soft attention 时,其取值是 0 到 1,当我们说 hard attention 其取值就只有 0 或 1。

为什么 attention 是重要的了?我们还有从 neural network 的本质说起, neural network 本质上就是一个 函数拟合器 function approximator,它的结构决定其可以拟合什么类型的函数,通常情况下输入向量彼此的作用方式只能是相加 A typical neural net is implemented as a chain of matrix multiplications and element-wise non-linearities, where elements of the input or feature vectors interact with each other only by addition

但是 注意力机制可以让输入向量之间的作用方式是相乘
Attention mechanisms compute a mask which is used to multiply features

neural networks are universal function approximators and can approximate an arbitrary function to arbitrary precision, but only in the limit of an infinite number of hidden units. In any practical setting, that is not the case: we are limited by the number of hidden units we can use.
神经网络可以拟合任意函数,但是受限于神经单元的数量,我们拟合的函数是有限制的。

The above definition of attention as multiplicative interactions allow us to consider a broader class of models if we relax the constrains on the values of the attention mask
注意力引入的 multiplicative interactions 可以让我们拟合更复杂的函数模型

Visual Attention
Attention 可以被应用到任意类型的输入,不管其形状如何,对于矩阵形式的输入 如 图像,我们可以探讨 visual attention,

Hard Attention
对于图像的 Hard Attention 就是 image cropping : g = I[y:y+h, x:x+w], 这个 hard attention 的问题是 non-differentiable,可以通过 score-function estimator 来解决

Soft Attention
文献 Show, Attend and Tell 中使用这种类型的 attention,
这里写图片描述
The model learns to attend to specific parts of the image while generating the word describing that part

Closing Thoughts

Attention mechanisms expand capabilities of neural networks: they allow approximating more complicated functions, or in more intuitive terms, they enable focusing on specific parts of the input.

Attention mechanisms 应该可以发挥更大的作用!

11

Attention注意力机制--原理与应用

注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权...
  • joshuaxx316
  • joshuaxx316
  • 2017年04月24日 21:51
  • 11535

神经网络中注意力机制(Attention Mechanism)

这篇博客讲解注意力机制很好,保存下来,忘记的时候,在看看! 强烈推荐:http://www.cnblogs.com/robert-dlut/p/5952032.html...
  • program_developer
  • program_developer
  • 2017年09月08日 16:17
  • 1434

神经网络中注意力机制(Attention Mechanism)

这篇博客讲解注意力机制很好,保存下来,忘记的时候,在看看! 强烈推荐:http://www.cnblogs.com/robert-dlut/p/5952032.html...
  • program_developer
  • program_developer
  • 2017年09月08日 16:17
  • 1434

ABCNN基于注意力的卷积神经网络用于句子建模--模型介绍篇

本文是Wenpeng Yin写的论文“ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs”的...
  • liuchonge
  • liuchonge
  • 2017年04月07日 19:51
  • 2923

注意力机制(Attention Mechanism)在自然语言处理中的应用

关于attention的发展综述文章
  • jdbc
  • jdbc
  • 2016年10月27日 18:17
  • 8320

关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了

文章来源:https://mp.weixin.qq.com/s/4b2javEpriP0L_PHKNagtw 作者:张俊林,中科院软件所博士,曾担任阿里巴巴、百度、用友等公司资深技术专家及技术总监职...
  • yangdelong
  • yangdelong
  • 2017年11月04日 15:45
  • 285

论文阅读: 图像分类中的注意力机制(attention)

本文简要总结一下attention机制在图像分类任务中的应用。attention作为一种机制,有其认知神经或者生物学原理: 注意力的认知神经机制是什么? 如何从生物学的角度来定义注意力? 在计算...
  • Wayne2019
  • Wayne2019
  • 2017年11月09日 12:10
  • 619

深度学习方法(九):自然语言处理中的Attention Model注意力模型

上一篇博文深度学习方法(八):Encoder-Decoder模型,基本Sequence to Sequence模型描述了基本的Encoder-Decoder模型,在作为翻译模型的时候,这种基本的Enc...
  • xbinworld
  • xbinworld
  • 2017年02月04日 00:27
  • 7140

Attention注意力机制--原理与应用

注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权...
  • joshuaxx316
  • joshuaxx316
  • 2017年04月24日 21:51
  • 11535

常见的两种注意力机制

为什么需要注意力机制 seq2seq模型已经在机器翻译、自然语言处理领域取得了很大的进步,基于贝叶斯条件概率公式,seq2seq由一个编码器和一个解码器构成,编码器将源序列A编码成一个固定长度的特征...
  • AMDS123
  • AMDS123
  • 2017年03月25日 18:45
  • 8080
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:神经网络注意力机制--Attention in Neural Networks
举报原因:
原因补充:

(最多只允许输入30个字)