AM(Attention注意力机制学习笔记

AM(Attention注意力机制学习笔记

一.关于《注意力模型–Attention注意力机制》的学习

1.Attention 机制可以分为两种:soft attention和 hard attention.
Soft Attention:是所有的数据都会注意,都会计算出相应的注意力权值,不会设置筛选条件。
Hard Attention:会在生成注意力权重后筛选掉一部分不符合条件的注意力,让它的注意力权值为0,即可以理解为不再注意这些不符合条件的部分。
2.Encoder-Decoder框架
大多AM是附着在编码-解码框架下的,但是AM模型可以看作一种通用的思想,本身并不依赖于Encoder-Decoder模型,Encoder-Decoder框架可以看作是一种文本处理领域的研究模式,如下图,可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。
图1. 非AM Encoder-Decoder 框架
图1. 非AM Encoder-Decoder 框架
例1. 输入X:Tom chase Jerry。 理想输出:汤姆追逐杰瑞。
在翻译此句子的时候,如果在翻译“杰瑞”的时候,体现出英文单词对于翻译当前中文单词不同的影响程度,就体现出了注意力机制。比如给出类似下面一个概率分布值,每个英文单词的概率代表了翻译当前单词“杰瑞”时,注意力分配模型分配给不同英文单词的注意力大小。
(Tom,0.3)(Chase,0.2)(Jerry,0.5)
这意味着在生成每个单词Yi的时候,原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的Ci。理解AM模型的关键就是这里,即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci。
图2.AM Encoder-Decoder 框架
图2.AM Encoder-Decoder 框架
即生成目标句子单词的过程成了下面的形式:
y1=f1(C1)
y2=f1(C2,y1)
y3=f1(C3,y1,y2)
3.注意力权重获取过程
Encoder采用RNN模型,Decoder也采用RNN模型,是比较常见的一种模型配置,如下图:
图3. RNN模型Encoder-Decoder框架
图3. RNN模型Encoder-Decoder框架
图4. AM注意力分配概率计算
图4. AM注意力分配概率计算

对于采用RNN的Decoder来说,如果要生成yi单词,在时刻i,我们是可以知道在生成Yi之前的隐层节点i时刻的输出值Hi的,而我们的目的是要计算生成Yi时的输入句子单词“Tom”、“Chase”、“Jerry”对Yi来说的注意力分配概率分布,那么可以用i时刻的隐层节点状态Hi去一一和输入句子中每个单词对应的RNN隐层节点状态hj进行对比,即通过函数F(hj,Hi)来获得目标单词Yi和每个输入单词对应的对齐可能性,这个F函数在不同论文里可能会采取不同的方法,然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值(这就得到了注意力权重)。图5显示的是当输出单词为“汤姆”时刻对应的输入句子单词的对齐概率。
From:https://www.jianshu.com/p/e14c6a722381

二.AM在翻译方面的应用

注意力机制的秘方在于,它建立了一个上下文向量与整个源句之间的快捷方式,而不只是通过编码器最后一步的隐层状态来生成上下文向量。这些快捷方式的连接权重是根据每个输出元素自适应计算出来的。
From:http://www.elecfans.com/d/883694.html

三.《Residual Attention Network for Image Classification》CVPR 2017

1.注意力机制的本质:一系列的注意力分配系数,也就是一系列权重参数,可以用来强调或选择目标处理对象的重要信息,并且抑制一些无关的细节信息。
2.残差注意力网络:是一个卷积神经网络,其中引入了混合注意力机制,并且网络结构非常地深。
3.引入注意力机制的意义:
(1)选择聚焦位置,产生更具分辨性的特征表示:网络由大量的注意力模块(Attention Module)组成,能产生注意力感知的(attention-aware)的特征,并且不同模块的特征,随着增加更多的注意力模块,可以线性提升网络的分类性能,基于不同深度的特征图可以提取额外的注意力模型。
渐增的注意力模块将带来持续的性能提升:残差注意力模型可以结合到目前的大部分深层网络中,做到end-to-end训练结果,因为残差结构的存在,可以很容易将网络扩展到百数层,不同类型的attention将被大量捕捉到。并且使用该种策略可以在达到其他大网络的分类准确率的同时显著降低计算量。
在这里插入图片描述
4.左图显示了在残差注意力网络中主干网络和注意力模块之间的关系,注意力模块为主干网络以某一个特征图为节点的分叉子网络;右图中的结果显示网络模型中,不同层特征图响应的注意力不同,在浅层结构中,网络的注意力集中于背景等区域,而在深层结构中,网络的注意力特征图(Attention Feature Map)聚焦于待分类的物体。这与之前的很多工作结论类似,那就是深层次的特征图具有更高的抽象性和语义表达能力,对于物体分类较浅层特征有较大的作用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值